• / 22
  • 下载费用:20 金币  

一元线性回归原理

关 键 词:
一元 线性 回归 原理
资源描述:
统计思维 回归的直观理解与原理: 一元线性回归 (一)问题的提出 例1 假定需要研究化肥施用量与粮食产量的关系,以 便准确地定出化肥施用量的单位变化如何影响粮食产 量的平均单位变化,进而确定合理的化肥施用量。 表1 化肥施用量与粮食产产量 化肥施用量x(万吨)4541.053637.872287.493056.894883.73779.34021.09 粮食产量y(万吨)48526.6945110.8740753.7943824.5850890.1146370.8846577.91 化肥施用量x(万吨)2989.063021.93953.973212.133804.761598.281998.56 粮食产量y(万吨)42947.4441673.2147244.3443061.5347336.7837127.8939515.07 化肥施用量x(万吨)3710.563269.031017.121864.232797.241034.09 粮食产量y(万吨)46598.0444020.9234866.9137184.1441864.7733717.78 图1 化肥施用量与粮食产量的散点图 上述变量间关系的特点: 1.变量间关系不能用函数 关系精确表达 2.一个变量的取值不能由 另一个变量唯一确定 3.当变量 x 取某个值时 , 变量 y 的取值可能有几个 4.各观测 点分布在直线周 围 x x y y 问题 两个变量之间有着密切的关系,但它们之间密 切的程度并不能由一个变量唯一确定另一个变 量,即它们间的关系是一种非确定性的关系。 它们之间到底有什么样的关系呢? u例1中由20组数据,粮食产量与化肥施用量的 关系式 是如何得到的? 解决方案 运用模型来拟合这些数据点 。 观测值分解成两部分: y = 0 + 1 x + l一元线性回归模型 x x y y 观测项 = + 结构项随机项 = + (二)一元线性回归模型 1.描述因变变量 y 如何依赖赖于自变变量 x 和误误差项项 的方程称为为回归归模型 2.一元线性回归模型可表示为 y = 0 + 1 x + y 是 x 的线线性函数(部分)加上误误差项项 线线性部分反映了由于 x 的变变化而引起的 y 的变变化 误差项 是随机变量 反映了除 x 和 y 之间间的线线性关系之外的随机因素对对 y 的影响 是不能由 x 和 y 之间间的线性关系所解释的变异性 0 和 1 称为模型的参数 x x y y 一元线性回归模型 (基本假定) 1.因变变量x与自变变量y之间间具有线线性关系 2.在重复抽样样中,自变变量x的取值值是固定的,即假定x是 非随机的 3.误误差项项是一个期望值为值为 0的随机变变量,即E()=0。对对 于一个给给定的 x 值值,y 的期望值为值为 E ( y ) = 0+ 1 x 4.对对于所有的 x 值值,的方差2 都相同 5.误误差项项是一个服从正态态分布的随机变变量,且相互独 立。即N(0 ,2 ) 独立性意味着对对于一个特定的 x 值值,它所对应对应 的与其他 x 值值所对应对应 的不相关 对对于一个特定的 x 值值,它所对应对应 的 y 值值与其他 x 所对应对应 的 y 值值也不相关 回归方程 (regression equation) 1.描述 y 的平均值值或期望值值如何依赖赖于 x 的方 程称为为回归归方程 2.一元线线性回归归方程的形式如下 E( y ) = 0+ 1 x 方程的图示是一条直线,也称为 直线回归方程 0是回归直线在 y 轴上的截距, 是当 x=0 时 y 的期望值 1是直线的斜率,称为回归系数 ,表示当 x 每变动一个单位时,y 的平均变动值 x x y y x y (xn , yn) (x1 , y1) (x2 , y2) (xi , yi) 问题:回归直线如何确定? Karl Gauss的最小化图 x x y y ( (x xn n , , y y n n ) ) ( (x x1 1 , , y y 1 1 ) ) ( (x x2 2 , , y y 2 2 ) ) ( (x xi i , , y y i i ) ) e ei i = = y y i i - -y y i i 目标:找一条直线尽可能的拟合这n个样本点。 (三)最小二乘估计 (least-squares estimation ) 1. 德国科学家Karl Gauss(17771855)提出用 最小化图中垂直方向的误差平方和来估计参数 2. 使因变量的观察值与估计值之间的误差平方和 达到最小来求得 和 的方法。即 3. 用最小二乘法拟合的直线来代表x与y之间的 关系与实际数据的误差比其他任何直线都小 问题 如何估计 使得 最小 解决方法 根据微积分法求极值的原理,通过求偏导数并 命其为0而得到: 这组方程称为正规方程组 经过整理,可得? 其中, u记 u可以简写为 经过整理,可得 例1 假定需要研究化肥施用量与粮食产量的关系, 以便准确地定出化肥施用量的单位变化如何影响粮食 产量的平均单位变化,进而确定合理的化肥施用量。 表1粮食产产量与化肥施用量 化肥施用量x(万吨)4541.053637.872287.493056.894883.73779.34021.09 粮食产量y(万吨)48526.6945110.8740753.7943824.5850890.1146370.8846577.91 化肥施用量x(万吨)2989.063021.93953.973212.133804.761598.281998.56 粮食产量y(万吨)42947.4441673.2147244.3443061.5347336.7837127.8939515.07 化肥施用量x(万吨)3710.563269.031017.121864.232797.241034.09 粮食产量y(万吨)46598.0444020.9234866.9137184.1441864.7733717.78 最小二乘法求解回归方程实例 解: 回归方程为: 直观来看,回归直线与20个样本数据点都很接近,说 明回归直线对数据的拟合效果是好的。 图1 化肥施用量与粮食产量的散点图 最小二乘估计的软件实现、输出结果 回归方程为: 小结:估计的回归方程 3. 一元线性回归中估计的回归方程为 2. 用样本统计量 和 代替回归方程中的未知参 数 和 ,就得到了估计的回归方程 1. 总体回归参数 和 是未知的,必须利用样本数 据去估计 其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率, 它表示对于一个给定的 x 的值, 是 y 的估计值,也表示 x 每变 动一个单位时, y 的平均变动值 . “回归”名称的由来 十九世纪,英国生物学家兼统计学家高尔顿研究父母身高 与其子女身高的遗传问题时 ,观察了1078对夫妇,以每对 夫妇的平均身高作为x(单位:英寸,1英寸=2.54厘米), 取他们的一个成年儿子的身高作为y,绘制散点图发现趋 势近乎一条直线,计算出的直线方程为: 这种趋势表明子代的身高向中心回归归,才使得人类的 身高在一定时间内相对稳定,没有出现两极分化现象。 其后研究变量x和变量y的统计关系时借用这个名词 。
展开阅读全文
  麦档网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:一元线性回归原理
链接地址:https://www.maidoc.com/p-16969098.html
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2018-2020 maidoc.com版权所有  文库上传用户QQ群:3303921 

麦档网为“文档C2C模式”,即用户上传的文档所得金币直接给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的金币归上传人(含作者)所有。
备案号:蜀ICP备17040478号-3  
川公网安备:51019002001290号 


收起
展开