• / 31
  • 下载费用:6 金币  

2013新人教A版选修(2-3)3.2《独立性检验的基本思想及其初步应用》2

关 键 词:
独立性检验的基本思想及其初步应用
资源描述:
3 2 独立性检验的基本思想及其初步应用 问题 数学家庞加莱每天都从一家面包店 买一块1000g 的面包 并记录下买回的面 包的实际质量 一年后 这位数学家发现 所记录数据的均值为950g 于是庞加莱 推断这家面包店的面包分量不足 假设 面包份量足 则一年购买面包的质量数据的 平均值应该不少于1000g 这个平均值不大于950g 是一个与假设 面包份量足 矛盾的小概率事件 这个小概率事件的发生使庞加莱得出推断结果 一 假设检验问题的原理 假设检验问题由两个互斥的假设构成 其中 一个叫做原假设 用H0表示 另一个叫做备择 假设 用H1表示 例如 在前面的例子中 原假设为 H0 面包份量足 备择假设为 H1 面包份量不足 这个假设检验问题可以表达为 H0 面包份量足 H1 面包份量不足 二 求解假设检验问题 考虑假设检验问题 H0 面包分量足 H1 面包分量不足 1 在H0成立的条件下 构造与H0矛盾的小概 率事件 2 如果样本使得这个小概率事件发生 就能以 一定把握断言H1成立 否则 断言没有发 现样本数据与H0相矛盾的证据 求解思路 独立性检验 本节研究的是两个分类变量的独立性检验问题 在日常生活中 我们常常关心分类变量之间是否有关系 例如 吸烟是否与患肺癌有关系 性别是否对于喜欢数学课程有影响 等等 吸烟与肺癌列联联表 不患肺癌患肺癌总计总计 不吸烟7775427817 吸烟2099492148 总计总计9874919965 为了调查吸烟是否对肺癌有影响 某肿瘤研究所随机 地调查了9965人 得到如下结果 单位 人 列联表 在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是 说明 吸烟者和不吸烟者患肺癌的可能性存在差异 吸烟者患 肺癌的可能性大 0 54 2 28 探究 不患肺癌患肺癌总计总计 不吸烟7775427817 吸烟2099492148 总计总计9874919965 1 列联表 2 三维柱形图3 二维条形图 不患肺 癌 患肺癌 吸烟 不吸烟 不患肺癌 患肺癌 吸烟不吸烟 0 8000 7000 6000 5000 4000 3000 2000 1000 从三维柱形图能清晰看出 各个频数的相对大小 从二维条形图能看出 吸烟者中 患肺癌的比例高于不患肺癌的比例 通过图形直观判断两个分类变量是否相关 不吸烟吸烟 患肺癌 比例 不患肺癌 比例 4 等高条形图 等高条形图更清晰地表达了两种情况下患肺癌的比例 上面我们通过分析数据和图形 得到的直观印象是吸烟和 患肺癌有关 那么事实是否真的如此呢 这需要用统计观点 来考察这个问题 现在想要知道能够以多大的把握认为 吸烟与患肺癌有关 为此先假设 H0 吸烟与患肺癌没有关系 不患肺癌患肺癌总计总计 不吸烟aba b 吸烟cdc d 总计总计a cb da b c d 把表中的数字用字母代替 得到如下用字母表示的列联表 用A表示不吸烟 B表示不患肺癌 则 吸烟与患肺癌没有关系 等 价于 吸烟与患肺癌独立 即假设H0等价于 P AB P A P B 因此 ad bc 越小 说明吸烟与患肺癌之间关系越弱 ad bc 越大 说明吸烟与患肺癌之间关系越强 不患肺癌患肺癌总计总计 不吸烟aba b 吸烟cdc d 总计总计a cb da b c d 在表中 a恰好为事件AB发生的频数 a b和a c恰好分别为事 件A和B发生的频数 由于频率接近于概率 所以在H0成立的条 件下应该有 为了使不同样本容量的数据有统一的评判标准 基于上述分 析 我们构造一个随机变量 卡方统计量 1 若 H0成立 即 吸烟与患肺癌没有关系 则K2应很小 根据表3 7中的数据 利用公式 1 计算得到K2的观测值为 那么这个值到底能告诉我们什么呢 2 独立性检验 在H0成立的情况下 统计学家估算出如下的概率 即在H0成立的情况下 K2的值大于6 635的概率非常小 近似 于0 01 也就是说 在H0成立的情况下 对随机变量K2进行多次观 测 观测值超过6 635的频率约为0 01 思考 答 判断出错的概率为0 01 判断 是否成立的规则 如果 就判断 不成立 即认为吸烟与 患肺癌有关系 否则 就判断 成立 即认为吸烟 与患肺癌有关系 独立性检验的定义 上面这种利用随机变量K2来确定在多大程度上 可以认为 两个分类变量有关系 的方法 称为两个 分类变量的独立性检验 在该规则下 把结论 成立 错判成 不成 立 的概率不会差过 即有99 的把握认为 不成立 独立性检验的基本思想 类似反证法 1 假设结论不成立 即 两个分类变量没有关系 2 在此假设下我们所构造的随机变量 K2 应该很小 如果由 观测数据计算得到K2的观测值k很大 则在一定可信程度上 说明 不成立 即在一定可信程度上认为 两个分类变量有 关系 如果k的值很小 则说明由样本观测数据没有发现反 对 的充分证据 3 根据随机变量K2的含义 可以通过评价该假设不合理的程 度 由实际计算出的 说明假设合理的程度为99 即 两个 分类变量有关系 这一结论成立的可信度为约为99 在实际应用中 要在获取样本数据之前通过下表确定临界值 0 500 400 250 150 10 0 455 0 7081 3232 0722 706 0 050 0250 0100 0050 001 3 841 5 0246 6367 87910 828 具体作法是 1 根据实际问题需要的可信程度确定临界值 2 利用公式 1 由观测数据计算得到随机变量 的观测值 3 如果 就以 的把握认为 X与 Y有关系 否则就说样本观测数据没有提供 X与Y有关系 的 充分证据 0 500 400 250 150 100 050 0250 0100 0050 001 0 4550 7081 3232 0722 7063 8415 0246 6357 87910 828 上面这种利用随机变量K2来确定在多大程度上 可以认为 两个分类变量有关系 的方法称为两个 分类变量的独立性检验 独立性检验的基本思想类似于数学上的反证法 要确认 两个分类变量有关系 这一结论成立的 可信程度 首先假设该结论不成立 即假设结论 两个分类变量没有关系 成立 在该假设下我们 构造的随机变量K2应该很小 如果由观测数据计 算得到的K2的观测值k很大 则在一定程度上说 明假设不合理 例 为考察高中生的性别与是否喜欢数学课程之间的 关系 在某城市的某校高中生中随机抽取300名学生 得到如下列联表 性别与喜欢数学课程列联表 喜欢欢数学课课程不喜欢欢数学课课程总计总计 男3785122 女35143178 总计总计72228300 由表中数字计算K2的观测值 在多大程度上可以认为 高中生的性别与是否喜欢数学课程之间有关系 为什么 有95 的把握认为 性别与是否喜欢数学课程之间有关系 k 4 513 总计总计 aba b cdc d 总计总计a cb da b c d 若要推断的结论为H1 X与Y有关系 可如下操作 1 通过三维柱形图和二维条形图 可以粗略地判断两个 变量是否有关系 但是这种判断不精确 总计总计 aba b cdc d 总计总计a cb da b c d 不患肺癌患肺癌总计总计 不吸烟aba b 吸烟cdc d 总计总计a cb da b c d 主对角线 副对角线 1 在三维柱形图中 主对角线上两个柱形高度的乘积ad与 副对角线上两个柱形高度的乘积bc相差越大 H1成立的 可能性就越大 2 利用独立性检验来考察两个分类变量是否有关系 并且能较精确地给出这种判断的可靠程度 具体做法是 根据观测数据计算由 给出的随机变量K2的值k 其值越大 说明 X与Y有关系 成立的可能性越大 当得到的观测数据a b c d都不小于 5时 可以通过查表来断言 X与Y有关系 的可信程度 例1 在某医院 因为患心脏病而住院的665名男性病人中 有214人秃顶 而另外772名不是因为患心脏病而住院的 男性病人中有174人秃顶 分别利用图形和独立性检验 方法判断秃顶与患心脏病是否有关系 你所得的结论在 什么范围内有效 解 根据题目所得数据得到列联表 患心脏脏病患其他病总计总计 秃顶秃顶214175389 不秃顶秃顶4515971048 总计总计6657721437 秃顶与患心脏病列联表 相应的三维柱形图如下 比较来说 副对角线上两个柱体高度的乘积要大一些 因此可以在某种程度上认为 秃顶与患心脏病有关 患心脏脏病患其他病总计总计 秃顶秃顶214175389 不秃顶秃顶4515971048 总计总计6657721437 所以有99 的把握认为 秃顶与患心脏病有关 例2 在研究某种新药对小白兔的防治效果时 得到下表 数据 存活数死亡数总计总计 未用新药药10138139 用新药药12920149 总计总计23058288 试分析新药对防治小白兔是否有效 99 5 的把握判定新药对防治小白兔是有效的 A 97 5 所以根据列联联表的数据 可以有 的把握认为该认为该 学校15至16 周岁岁的男生的身高和体重之间间有关系 由独立性检验检验 随机变变量 值值的计计算公式得
展开阅读全文
  麦档网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:2013新人教A版选修(2-3)3.2《独立性检验的基本思想及其初步应用》2
链接地址:https://www.maidoc.com/p-16374160.html

当前资源信息

wx****8

编号: 20180901091258297439

类型: 共享资源

格式: PPT

大小: 429.50KB

上传时间: 2020-03-26

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2018-2020 maidoc.com版权所有  文库上传用户QQ群:3303921 

麦档网为“文档C2C模式”,即用户上传的文档所得金币直接给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的金币归上传人(含作者)所有。
备案号:蜀ICP备17040478号-3  
川公网安备:51019002001290号 

本站提供办公文档学习资料考试资料文档下载


收起
展开