• / 63
  • 下载费用:30 金币  

作者贾俊平

关 键 词:
作者 贾俊平
资源描述:
作者 贾俊平 统计学 统 计 学 (第三版) 20082008 9 - 2 统计学 STATISTICS (第三版) 上好的模型选择可遵循一个称为 奥克姆剃刀(Occam’s Razor)的基 本原理:最好的科学模型往往最 简单,且能解释所观察到的事实 。 ——William Navidi 统计名言统计名言 第 9 章 多元线性回归 9.1 多元线性回归模型 9.2 拟合优度和显著性检验 9.3 多重共线性及其处理 9.4 利用回归方程进行预测 9.5 虚拟自变量的回归 9 - 4 统计学 STATISTICS (第三版) 学习目标 l多元线性回归模型、回归方程与估计的回 归方程 l回归方程的拟合优度与显著性检验 l多重共线性问题及其处理 l利用回归方程进行预测 l虚拟自变量的回归 l用Excel和SPSS进行回归分析 9 - 5 统计学 STATISTICS (第三版) 身高受那些因素影响? Ø 决定身高的因素是什么?父母遗传、生活环境、体育锻 炼,还是以上各因素的共同作用 Ø 2004年12月,中国人民大学国民经济管理系02级的两位 学生,对人大在校生进行了问卷调查。问卷采取随机发放 、当面提问当场收回 Ø 调查的样本量为98人,男性55人,女性43人。调查内容 包括被调查者的身高(单位:cm)、性别、其父母身高、是 否经常参加体育锻炼、家庭所在地是在南方还是在北方等 等。部分数据如教材中的表所示(1代表男性,0代表女性) Ø 父亲身高、母亲身高、性别是不是影响子女身高的主要 因素呢?如果是,子女身高与这些因素之间能否建立一个 线性关系方程,并根据这一方程对身高做出预测? Ø 这就是本章将要讨论的多元线性回归问题 9.1 9.1 多元线性回归模型多元线性回归模型 9.1.1 9.1.1 回归模型与回归方程回归模型与回归方程 9.1.2 9.1.2 参数的最小二乘估计参数的最小二乘估计 第 9 章 多元线性回归 9.1.1 回归模型与回归方程 9.1 9.1 多元多元线线线线性回性回归归归归模型模型 9 - 8 统计学 STATISTICS (第三版) 多元回归模型 (multiple linear regression model) • 一个因变量与两个及两个以上自变量的回归 • 描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xk 和误差项  的方程,称为多元回归模型 • 涉及 k 个自变量的多元线性回归模型可表示为 § §  0 0 ,,  1 1 ,,    ,,,,  k k 是参数是参数 § §   是被称为误差项的随机变量是被称为误差项的随机变量 § § y y 是是x x 1, 1, ,,x x 2 2 ,, ,,x x k k 的线性函数加上误差项的线性函数加上误差项   § §   包含在包含在y y里面但不能被里面但不能被k k个自变量的线性关系个自变量的线性关系 所解释的变异性所解释的变异性 9 - 9 统计学 STATISTICS (第三版) 多元回归模型 (基本假定) • 正态性。误差项ε是一个服从正态分布的 随机变量,且期望值为0,即ε~N(0,2) • 方差齐性。对于自变量x1,x2,…,xk的 所有值, 的方差 2都相同 • 独立性。对于自变量x1,x2,…,xk的一 组特定值,它所对应的与任意一组其他 值所对应的不相关 9 - 10 统计学 STATISTICS (第三版) 多元线性回归方程 (multiple linear regression equation) • 描述因变量 y 的平均值或期望值如何依赖 于自变量 x1, x2 ,…,xk的方程 • 多元线性回归方程的形式为 E( y ) = 0+ 1 x1 + 2 x2 +…+ k xk § §   1 1 ,,    ,,,,  k k 称为偏回归系数称为偏回归系数 § §  i i 表示假定其他变量不变,当表示假定其他变量不变,当 x x i i 每每 变动一个单位时,变动一个单位时,y y 的平均变动值的平均变动值 9 - 11 统计学 STATISTICS (第三版) 估计的多元线性回归的方程 (estimated multiple linear regression equation) § § 是是 估计值估计值 § § 是是 y y 的估计值的估计值 • 用样本统计量 估计回归方 程中的 参数 时得到的方程 • 由最小二乘法求得 • 一般形式为 9.1.2 参数的最小二乘估计 9.1 9.1 多元多元线线线线性回性回归归归归模型模型 9 - 13 统计学 STATISTICS (第三版) 参数的最小二乘估计 2.2. 求求解解各回归参数的标准方程如下各回归参数的标准方程如下 1.1. 使使因变量的观察值与估计值之间的离差平方和因变量的观察值与估计值之间的离差平方和 达到最小来求得达到最小来求得 。。即即 9 - 14 统计学 STATISTICS (第三版) 参数的最小二乘法 (例题分析) 【【例例】】一家大型商业银行在多个地区设有分行一家大型商业银行在多个地区设有分行 ,为弄清楚不良贷款形成的原因,抽取了该,为弄清楚不良贷款形成的原因,抽取了该 银行所属的银行所属的2525家分行家分行20022002年的有关业务数年的有关业务数 据。试建立不良贷款据。试建立不良贷款y y与贷款余额与贷款余额x x 1 1 、、累计应累计应 收贷款收贷款x x 2 2 、、贷款项目个数贷款项目个数x x 3 3 和固定资产投资和固定资产投资 额额x x 4 4 的线性回归方程,并解释各回归系数的的线性回归方程,并解释各回归系数的 含义含义 用用ExcelExcel进行回归进行回归  9 - 15 统计学 STATISTICS (第三版) 参数的最小二乘估计 (例题分析) F F检验检验 t t 检验检验 偏回归系数偏回归系数 9.2 9.2 拟合优度和显著性检验拟合优度和显著性检验 9.2.1 9.2.1 回归方程的拟合优度回归方程的拟合优度 9.2.2 9.2.2 显著性检验显著性检验 第 9 章 多元线性回归 9.2.1 回归方程的拟合优度 9.2 9.2 拟拟拟拟合合优优优优度和度和显显显显著性著性检验检验检验检验 9 - 18 统计学 STATISTICS (第三版) 多重判定系数 (multiple coefficient of determination) • 回归平方和占总平方和的比例 • 计算公式为 • 因变量取值的变差中,能被估计的多元回 归方程所解释的比例 9 - 19 统计学 STATISTICS (第三版) 修正多重判定系数 (adjusted multiple coefficient of determination) • 用样本量n和自变量的个数k去修正R2得到 • 计算公式为 • 避免增加自变量而高估 R2 • 意义与 R2类似 • 数值小于R2 用用ExcelExcel进行回归进行回归 9 - 20 统计学 STATISTICS (第三版) 多重相关系数 (multiple correlation coefficient) •多重判定系数的平方根R •反映因变量y与k个自变量之间的相关程度 •实际上R度量的是因变量的观测值 与由 多元回归方程得到的预测值 之间的关系 强度,即多重相关系数R等于因变量的观 测值 与估计值 之间的简单相关系数即 (一元相关系数r也是如此 ,即 。读者自己去验证) 9 - 21 统计学 STATISTICS (第三版) 估计标准误差 Se • 对误差项的标准差 的一个估计值 • 衡量多元回归方程的拟合优度 • 计算公式为 用用ExcelExcel进行回归进行回归 9.2.2 显著性检验 9.2 9.2 拟拟拟拟合合优优优优度和度和显显显显著性著性检验检验检验检验 9 - 23 统计学 STATISTICS (第三版) 线性关系检验 • 检验因变量与所有自变量之间的线性关系是 否显著 • 也被称为总体的显著性检验 • 检验方法是将回归均方(MSR)同残差均方 (MSE)加以比较,应用 F 检验来分析二者之 间的差别是否显著 n如果是显著的,因变量与自变量之间存在 线性关系 n如果不显著,因变量与自变量之间不存在 线性关系 9 - 24 统计学 STATISTICS (第三版) 线性关系检验 • 提出假设 nH0:12k=0 线性关系不显著 nH1:1,2, k至少有一个不等于0 2. 2. 计算计算检验统计量检验统计量F F 3.3. 确定确定显著性水平显著性水平   和分子自由度和分子自由度k k、分母自由度、分母自由度n-kn-k -1-1找出临界值找出临界值F F   4. 4. 作出作出决策:若决策:若F F F F   ,,拒绝拒绝H H 0 0 用用ExcelExcel进行回归进行回归 9 - 25 统计学 STATISTICS (第三版) 回归系数的检验 • 线性关系检验通过后,对各个回归系数有 选择地进行一次或多次检验 • 究竟要对哪几个回归系数进行检验,通常 需要在建立模型之前作出决定 • 对回归系数检验的个数进行限制,以避免 犯过多的第Ⅰ类错误(弃真错误) • 对每一个自变量都要单独进行检验 • 应用 t 检验统计量 9 - 26 统计学 STATISTICS (第三版) 回归系数的检验 (步骤) • 提出假设 nH0: i = 0 (自变量 xi 与 因变量 y 没有线性 关系) nH1: i  0 (自变量 xi 与 因变量 y有线性关 系) • 计算检验的统计量 t 3.3. 确定显著性水平确定显著性水平   ,并进行决策,并进行决策 § §   t t  t t   , ,拒绝拒绝H H 0 0 ;; t t  t t   ,不拒绝 ,不拒绝H H 0 0 用用Excel Excel 进行回归进行回归 9 - 27 统计学 STATISTICS (第三版) 回归系数的推断 (置信区间) 回归系数在(1-)%置信水平下的置信区间 为 回归系数的回归系数的 抽样标准差抽样标准差 用用ExcelExcel进行回归进行回归 9.3 9.3 多重共线性及其处理多重共线性及其处理 9.3.1 9.3.1 多重共线性及其识别多重共线性及其识别 9.3.2 9.3.2 变量选择与逐步回归变量选择与逐步回归 第 9 章 多元线性回归 9.3.1 多重共线性及其识别 9.3 9.3 多重共多重共线线线线性及其性及其处处处处理理 9 - 30 统计学 STATISTICS (第三版) 多重共线性 (multicollinearity) • 回归模型中两个或两个以上的自变量彼此 相关 • 多重共线性带来的问题有 n可能会使回归的结果造成混乱,甚至会 把分析引入歧途 n可能对参数估计值的正负号产生影响, 特别是各回归系数的正负号有可能同预期的 正负号相反 用用ExcelExcel进行回归进行回归 9 - 31 统计学 STATISTICS (第三版) 多重共线性的识别 • 检测多重共线性的最简单的一种办法是计算模型 中各对自变量之间的相关系数,并对各相关系数 进行显著性检验 n若有一个或多个相关系数显著,就表示模型中 所用的自变量之间相关,存在着多重共线性 • 如果出现下列情况,暗示存在多重共线性 n模型中各对自变量之间显著相关 n当模型的线性关系检验(F检验)显著时,几乎所 有回归系数的t检验却不显著 n回归系数的正负号与预期的相反 用用ExcelExcel进行回归进行回归 9 - 32 统计学 STATISTICS (第三版) 多重共线性的处理 • 将一个或多个相关的自变量从模型中剔 除,使保留的自变量尽可能不相关 • 如果要在模型中保留所有的自变量,则 应 n避免根据 t 统计量对单个参数进行检验 n对因变量值的推断(估计或预测)的限定 在自变量样本值的范围内 用用ExcelExcel进行回归进行回归 9 - 33 统计学 STATISTICS (第三版) 提 示 • 在建立多元线性回归模型时,不要试图 引入更多的自变量,除非确实有必要 • 在社会科学的研究中,由于所使用的大 多数数据都是非试验性质的,因此,在 某些情况下,得到的结果往往并不令人 满意,但这不一定是选择的模型不合适 ,而是数据的质量不好,或者是由于引 入的自变量不合适 9 - 34 统计学 STATISTICS (第三版) 奥克姆剃刀 (Occam’s Razor) • 模型选择可遵循奥克姆剃刀的基本原理 n最好的科学模型往往最简单,且能解释所观 察到的实事 • 对于线性模型来说,奥克姆剃刀可表示成简约 原则 n一个模型应包括拟合数据所必需的最少变量 • 如果一个模型只包含数据拟合所必需的变量, 这个模型就称为简约模型(parsimonious model) n实际中的许多多元回归模型都是对简约模型 的扩展 9.3.2 变量选择与逐步回归 9.3 9.3 多重共多重共线线线线性及其性及其处处处处理理 9 - 36 统计学 STATISTICS (第三版) 变量选择过程 • 在建立回归模型时,对自变量进行筛选 • 选择自变量的原则是对统计量进行显著性检验 n将一个或一个以上的自变量引入到回归模型中时,是 否使得残差平方和(SSE)有显著地减少。如果增加一个自 变量使SSE的减少是显著的,则说明有必要将这个自变量 引入回归模型,否则,就没有必要将这个自变量引入回归 模型 n确定引入自变量是否使SSE有显著减少的方法,就是 使用F统计量的值作为一个标准,以此来确定是在模型中增 加一个自变量,还是从模型中剔除一个自变量 n 变量选择的方法主要有:向前选择、向后剔除、逐步 回归、最优子集等 9 - 37 统计学 STATISTICS (第三版) 向前选择 (forward selection) • 从模型中没有自变量开始 • 对k个自变量分别拟合对因变量的一元线性 回归模型,共有k个,然后找出F统计量的值 最高的模型及其自变量(P值最小的),并将 其首先引入模型 • 分别拟合引入模型外的k-1个自变量的线性 回归模型 • 如此反复进行,直至模型外的自变量均无统 计显著性为止 9 - 38 统计学 STATISTICS (第三版) 向后剔除 (backward elimination) • 先对因变量拟合包括所有k个自变量的回归模型。 然后考察p(pk)个去掉一个自变量的模型(这些模 型中在每一个都有的k-1个自变量),使模型的SSE 值减小最少的自变量被挑选出来并从模型中剔除 • 考察p-1个再去掉一个自变量的模型(这些模型中每 一个都有k-2个的自变量),使模型的SSE值减小最 少的自变量被挑选出来并从模型中剔除 • 如此反复进行,一直将自变量从模型中剔除,直 至剔除一个自变量不会使SSE显著减小为止 9 - 39 统计学 STATISTICS (第三版) 逐步回归 (stepwise regression) • 将向前选择和向后剔除两种方法结合起来筛选自变量 • 在增加了一个自变量后,它会对模型中所有的变量进 行考察,看看有没有可能剔除某个自变量。如果在增 加了一个自变量后,前面增加的某个自变量对模型的 贡献变得不显著,这个变量就会被剔除 • 按照方法不停地增加变量并考虑剔除以前增加的变量 的可能性,直至增加变量已经不能导致SSE显著减少 • 在前面步骤中增加的自变量在后面的步骤中有可能被 剔除,而在前面步骤中剔除的自变量在后面的步骤中 也可能重新进入到模型中 9 - 40 统计学 STATISTICS (第三版) 参数的最小二乘法 (逐步回归) 【【例例】】根据例根据例9.19.1的数据,用逐步回归方法建立的数据,用逐步回归方法建立 不良贷款不良贷款y y与贷款余额与贷款余额x x 1 1 、、累计应收贷款累计应收贷款x x 2 2 、、 贷款项目个数贷款项目个数x x 3 3 和固定资产投资额和固定资产投资额x x 4 4 的线性的线性 回归方程,并求出不良贷款的置信区间和预回归方程,并求出不良贷款的置信区间和预 测区间测区间 9 - 41 统计学 STATISTICS (第三版) 用SPSS进行逐步回归 (stepwise regression) 第1步:选择【Analyze】下拉菜单,并选择 【Regression - linear】选项进入主对话框 第2步:在主对话框中将因变量选入【Dependent】, 将 所有自变量选入【Independent(s)】,并在 【Method】下选择【Stepwise】 第3步:点击【Options】,并在【Stepping Method Criteria】下选中【Use Probability of F】,并 在 【Entry】框中输入增加变量所要求的显著性水 平 (隐含值为0.05,一般不用改变);在 【Removal】输入剔除变量所要求的显著性水 平 (隐含值为0.10,一般不用改变)。点击 【Continue】回到主对话框 9 - 42 统计学 STATISTICS (第三版) 用SPSS进行逐步回归 (stepwise regression) 第4步:(需要预测时)点击【Save】: 在【Predicted Values】下选中 【Unstandardized】(输出点预测值) 在【Prediction interval】下选中【Mean】 和 【Individual】(输出置信区间 和预测区间) 在【Confidence Interval】中选择所要求的 置 信水平(隐含值为95%,一般不用改变) (需要残差分析时)在【Residuals】下选中 所 需的残差,点击【Continue】回到主对话 框。点击【OK】  用用SPSSSPSS进行回归进行回归 9 - 43 统计学 STATISTICS (第三版) 逐步回归 (例题分析—SPSS输出结果) 变量的进入和移出标准 9 - 44 统计学 STATISTICS (第三版) 逐步回归 (例题分析—SPSS输出结果) 两个模型的主要统计量 9 - 45 统计学 STATISTICS (第三版) 逐步回归 (例题分析—SPSS输出结果) 两个模型的方差分析表 9 - 46 统计学 STATISTICS (第三版) 逐步回归 (例题分析—SPSS输出结果) 两个模型的参数估计和检验 9.4 9.4 利用回归方程进行预测利用回归方程进行预测 第 9 章 多元线性回归 9 - 48 统计学 STATISTICS (第三版) 置信区间和预测区间 (例题分析) 9 - 49 统计学 STATISTICS (第三版) 置信区间和预测区间 (例题分析) 不良贷款的置信面和预 测面 二元回归面二元回归面 置信面置信面 预测面预测面 9.5 9.5 虚拟自变量的回归虚拟自变量的回归 第 9 章 多元线性回归 9.5.1 在模型中引进虚拟变量 9.5 9.5 虚虚拟拟拟拟自自变变变变量的回量的回归归归归 9 - 52 统计学 STATISTICS (第三版) 虚拟自变量 (dummy variable) • 也称哑变量。用数字代码表示的定性自变量 • 虚拟自变量可有不同的水平 n只有两个水平的虚拟自变量 •比如,性别(男,女) n有两个以上水平的虚拟自变量 •贷款企业的类型(家电,医药,其他) • 虚拟变量的取值为0,1 9 - 53 统计学 STATISTICS (第三版) 在回归中引进虚拟变量 • 回归模型中使用虚拟自变量时,称为虚拟自变 量的回归 • 当虚拟自变量只有两个水平时,可在回归中引 入一个虚拟变量 n比如,性别(男,女) • 一般而言,如果定性自变量有k个水平,需要在 回归中模型中引进k-1个虚拟变量 9 - 54 统计学 STATISTICS (第三版) 在回归中引进虚拟变量 (例题分析) 【【例例】】为研究为研究 考试成绩与性考试成绩与性 别之间的关系别之间的关系 ,从某大学商,从某大学商 学院随机抽取学院随机抽取 男女学生各男女学生各8 8 名,得到他们名,得到他们 的市场营销学的市场营销学 课程的考试成课程的考试成 绩如右表绩如右表 9.5.2 含有一个虚拟自变量的回归 9.5 9.5 虚虚拟拟拟拟自自变变变变量的回量的回归归归归 9 - 56 统计学 STATISTICS (第三版) 在回归中引进虚拟变量 (例题分析) 【【例例】】建建 立考试分立考试分 数与性别数与性别 之间的线之间的线 性回归方性回归方 程,并解程,并解 释回归系释回归系 数的含义数的含义 用用ExcelExcel进行回归进行回归 9 - 57 统计学 STATISTICS (第三版) 虚拟自变量的回归 (例题分析) § 引进虚拟变量时,回归方程表示为E(y) =0+ 1x •男( x=0):E(y) =0—男学生考试成绩的期望值 •女(x=1):E(y) =0+ 1—女学生考试成绩的期望 值 § 注意:当指定虚拟变量0,1时 •0总是代表与虚拟变量值0所对应的那个分类 变量水平的平均值 •1总是代表与虚拟变量值1所对应的那个分类 变量水平的平均响应与虚拟变量值0所对应的那个分 类变量水平的平均值的差值,即 平均值的差值 =(0+ 1) - 0= 1 9 - 58 统计学 STATISTICS (第三版) 虚拟自变量的回归 (例题分析) 考试成绩与性别的回归 男学生 考试分数 的平均值 女学生 与男学生 平均考试 分数的差 值 9 - 59 统计学 STATISTICS (第三版) 虚拟自变量的回归 (考试成绩与性别的散点图) 男 女 9 - 60 统计学 STATISTICS (第三版) 虚拟自变量的回归 (例题分析) 【【例例】】为研究为研究 工资水平与工工资水平与工 作年限和性别作年限和性别 之间的关系,之间的关系, 在某行业中随在某行业中随 机抽取机抽取1010名职名职 工,所得数据工,所得数据 如右表如右表 用用ExcelExcel进行回归进行回归 9 - 61 统计学 STATISTICS (第三版) 虚拟自变量的回归 (例题分析) § 引进虚拟变量时,回归方程写为 E(y) =0+ 1x1+ 2x2 •女( x2=0):E(y|女性) =0 +1x1 •男(x2=1):E(y|男性) =(0 + 2 ) +1x1 § 0的含义表示:女性职工的期望月工资收入 § (0+ 2)的含义表示:男性职工的期望月工资收入 § 1含义表示:工作年限每增加1年,男性或女性工资 的平均增加值 § 2含义表示:男性职工的期望月工资收入与女性职 工的期望月工资收入之间的差值 (0+ 2) - 0= 2 9 - 62 统计学 STATISTICS (第三版) 本章小结 l多元线性回归模型、回归方程与估计的 回归方程 l回归方程的拟合优度与显著性检验 l多重共线性问题及其处理 l利用回归方程进行预测 l虚拟自变量的回归 l用Excel和SPSS进行回归分析 结 束
展开阅读全文
  麦档网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:作者贾俊平
链接地址:https://www.maidoc.com/p-15404382.html

当前资源信息

tang****xu1

编号: 20180904160936588495

类型: 共享资源

格式: PPT

大小: 483.50KB

上传时间: 2019-09-11

相关搜索

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2018-2020 maidoc.com版权所有  文库上传用户QQ群:3303921 

麦档网为“文档C2C模式”,即用户上传的文档所得金币直接给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的金币归上传人(含作者)所有。
备案号:蜀ICP备17040478号-3  
川公网安备:51019002001290号 

本站提供办公文档学习资料考试资料文档下载


收起
展开