• / 43
  • 下载费用:6 金币  

2013新人教A版选修(2-3)3.2《独立性检验的基本思想及其初步应用》3

关 键 词:
独立性检验的基本思想及其初步应用 2独立性检验的基本思想及其初步应用 新人教A版选修2-3 3.2独立性检验的基本思想及其初步应用 人教A版选修2-3 独立性检验的基本思想及其初步应用
资源描述:
独立性检验 本节研究的是两个分类变量的独立性检验问题 在日常生活中 我们常常关心分类变量之间是否有关系 例如 吸烟是否与患肺癌有关系 性别是否对于喜欢数学课程有影响 等等 吸烟与肺癌列联联表 不患肺癌患肺癌总计总计 不吸烟7775427817 吸烟2099492148 总计总计9874919965 为了调查吸烟是否对肺癌有影响 某肿瘤研究所随机 地调查了9965人 得到如下结果 单位 人 在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是 说明 吸烟者和不吸烟者患肺癌的可能性存在差异 吸烟者患 肺癌的可能性大 0 54 2 28 探究 列联表 定义 列出的两个分类变量的称为列 联表 2 2列联表 一般地 假设两个分类变量X和Y 它们的取值 分别为和 其样本频数列联 表 也称为2 2列联表 为下表 频数表 x1 x2 y1 y2 一般地 假设有两个分类变量X和Y 它们的可 能取值分别为 x1 x2 和 y1 y2 其样本频数 列联表 即2 2列联表 为 其中n 为样 本容量 y1y2合计 x1aba b x2cdc d 总计a cb da b c d a b c d 不患肺 癌 患肺癌 吸烟 不吸烟 不患肺癌 患肺癌 吸烟不吸烟 0 8000 7000 6000 5000 4000 3000 2000 1000 三维柱形图 二维条形图 在三维柱形图中 主对角线上两个柱形高度的乘积与 副对角线上两个柱形高度的乘积相差越大 两个分类变量有关系的可能性就越大 等高条形图 等高条形图与表格相比 更能直观地反映出两个 分类变量间是否互相影响 常用等高条形图展示列联表数据的频率特征 不吸烟吸烟 患肺癌 比例 不患肺癌 比例 等高条形图 等高条形图更清晰地表达了两种情况下患肺癌的比例 某企业为了考察同一种产品在甲 乙两条生产线的 产品合格率 同时各抽取100件产品 其中甲线中合 格产品的个数为97 乙线中合格产品的个数为95 请做出列联表 三维柱形图与二维条形图 合格不合格总计 甲生产线973100 乙生产线955100 总计1928200 1 2 2列联表是传统 的调查 研究中最常 用的方法之一 用于研究两个变量之间相 互独立还是存在某种关联性 它适用于分 析两个变量之间的关系 2 在实际问题 中 判断两个分类变 量的 关系的可靠性时 一般利用随机变量K2来 确定 而不利用三维柱形图和二维条形 图 上面我们通过分析数据和图形 得到的直观印象是吸烟和 患肺癌有关 那么事实是否真的如此呢 这需要用统计观点 来考察这个问题 现在想要知道能够以多大的把握认为 吸烟与患肺癌有关 为此先假设 H0 吸烟与患肺癌没有关系 不患肺癌患肺癌总计总计 不吸烟aba b 吸烟cdc d 总计总计a cb da b c d 把表中的数字用字母代替 得到如下用字母表示的列联表 用A表示不吸烟 B表示不患肺癌 则 吸烟与患肺癌没有关系 等 价于 吸烟与患肺癌独立 即假设H0等价于 P AB P A P B 因此 ad bc 越小 说明吸烟与患肺癌之间关系越弱 ad bc 越大 说明吸烟与患肺癌之间关系越强 不患肺癌患肺癌总计总计 不吸烟aba b 吸烟cdc d 总计总计a cb da b c d 在表中 a恰好为事件AB发生的频数 a b和a c恰好分别为事 件A和B发生的频数 由于频率接近于概率 所以在H0成立的条 件下应该有 为了使不同样本容量的数据有统一的评判标准 基于上述分 析 我们构造一个随机变量 卡方统计量 1 若 H0成立 即 吸烟与患肺癌没有关系 则K2应很小 根据表3 7中的数据 利用公式 1 计算得到K2的观测值为 那么这个值到底能告诉我们什么呢 2 独立性检验 k大小的标准是什么呢 独立性检验 首先 假设结论不成立 即 H 两个分类变量没有关系 在这种假设下k应该很小 其次 由观测数据计算K 的观测值k 如果k很大 则在一定可信程度上说明H 不 成立 即两个分类变量之间有关系 最后 根据k的值判断假设是否成立 2 临界值表 0 500 400 250 150 100 050 0250 0100 0050 001 0 4450 7081 3232 0722 7063 8415 0246 6357 87910 828 这种判断可能有错误 但是犯错误的不会超过 0 001 这是个小概率时间 我们有99 9 的把 握认为 吸烟与患癌症有关系 利用随机变量K2来确定是否能以一定把握 认为 两个分类变 量有关系 的方法称为两 个分类变 量的独立性检验 在吸烟与患肺病这两个分类变量的计算中 下列说法正确 的是 A 若K的观测值为k 6 635 我们有99 的把握认为吸烟与患 肺病有关系 那么在100个吸烟的人中必有99个患肺病 B 从独立性检验可知有99 的把握认为吸烟与患肺病有关 系时 我们说某人吸烟 那么他有99 的可能患肺病 C 若从统计量中求出有95 的把握认为吸烟与患肺病有关 系 是指有5 的可能性使得推理出现错误 D 以上三种说法都不对 c 例2 某电视 台联合相关报社对 男女同 龄退休 这一公众关注的问题进 行了民意 调查 数据如下表所示 根据表中数据 能否在犯错误 的概率不超 过0 001的前提下认为对这 一问题 的看法 与性别有关系 P K2 10 828 0 001 赞同反对总计 男198217415 女476109585 总计6743261000 解析 假设H0 对这一问题的看法与性 别无关 由列联表中的数据 可以得到 125 161 10 828 又P K2 10 828 0 001 故在犯错误概率不超过0 001的前提下认为 对 男女同龄退休 这一问题的看法与性别有 关 点评 可以利用独立性检验来判断两个分 类变量是否有关系 具体做法是 5月31日是 世界无烟日 2009年的主题是 让肺 自由呼吸 为探究患肺癌是否与吸烟有关 某 校研究性学习小组调查 了1339名50岁以上的人 调查结 果如下表所示 患肺癌不患肺癌总计 吸烟28579607 不吸烟7725732 总计3513041339 试问 能否在犯错误 的概率不超过0 01的 前提下认为 50岁以上的人患肺癌与吸烟有 关系 解析 依题意可知 6 635 又P K2 6 635 0 01 因此 在犯错误的概率不超过0 01的前提 下认为吸烟与患肺癌有关 例3 为了解铅中毒病人是否有尿棕色素 增加现象 分别对 病人组和对照组的尿 液作尿棕色素定性检查 结果如下 问 铅中毒病人和对照组的尿棕色素阳性数有 无差别 组别阳性数阴性数合计 铅中毒病人29736 对照组92837 合计383573 解析 由上述列联表可知 在铅中毒病人 中尿棕色素为阳性的占80 56 而对照组 仅占24 32 说明他们之间有较大差别 根据列联表作出三维柱形图 如图1 二维条形 图 如图2 频率分布条形图 如图3所示 由上 述三图可知 铅中毒病人中与对照组相比较 尿棕色素为阳性差异明显 因此铅中毒病人与 尿棕色素为阳性存在关联关系 某学校对学生课外活动内容进行调查 结果整理成下表 利用图形判断学生课外活动的类别 与性 别是否有关系 体育文娱总计 男生212344 女生62935 总计275279 解析 某等高条形图如图所示 由图可以直观地看出喜欢体育还是喜欢文 娱在性别上有较大差异 说明课外活动的 类别与性别在某种程度上有关系 练习 1 调查男女学生购买食品时是否看出厂 日期与性别有无关系时 最有说服力的是 A 期望 B 方差 C 正态分布 D 独立性检验 答案 D 2 10名学生在一次数学考试中的成绩如 下表 要研究这10名学生成绩的平均情况 则最 能说明问题 的是 A 概率 B 期望 C 方差 D 独立性检验 答案 B 分数100115120125 人数2431 练习 3 下面是一个2 2列联表 则表中a b处的值分别为 A 94 96 B 52 50 C 52 59 D 54 52 答案 C y1y2合计 x1a2173 x272027 合计b41100 4 用K2统计量进行独立性检验时 使用的 表称为 要求表中的四个数 据 答案 2 2列联表 均大于5 5 若两个分类变 量x和y的列联表为 则x与y之间有关系的概率约为 答案 99 y1y2 x1615 x24010 6 为调查学生对国家大事关心与否是否与 性别有关 在学生中进行随机抽样调查 结果如下表 根据统计数据作出合适的判 断分析 关心不关心合计 男生18218200 女生17624200 合计35842400 点评 根据随机变量K2的值判断两分类 变量是否有关的步骤 第一 假设两分类 变量无关 第二 由数据及公式计算K2的 观测值k 第三 将k的值与临界值比较得 出结论 思考 利用上面的结论 你能从列联表的三维柱形图中 看出两个分类变量是否相关呢 表1 11 2x2联表 一般地 假设有两个分类变量X和Y 它们的值域分 别为 x1 x2 和 y1 y2 其样本频数列联表 称为2x2列联 表 为 y1y2总计总计 x1aba b x2cdc d 总计总计a cb da b c d 若要判断的结论为 H1 X与Y有关系 可以按如 下步骤判断H1成立的可能性 2 可以利用独立性检验来考察两个分类变量是否有关系 并 且能较精确地给出这种判断的可靠程度 1 通过三维柱形图和二维条形图 可以粗略地判断两个变 量是否有关系 但是这种判断无法精确地给出所得结论的可靠 程度 1 在三维柱形图中 主对角线上两个柱形高度的乘积 ad与副对角线上两个柱形高度的乘积bc相差越大 H1成立的 可能性就越大 2 在二维条形图中 可以估计满足条件X x1的个体中具 有Y y1的个体所占的比例 也可以估计满足条件X x2 的个体中具有Y y1的个体所占的比例 两个比例相差越 大 H1成立的可能性就越大 在实际应用中 要在获取样本数据之前通过下表确定临界值 0 500 400 250 150 10 0 455 0 7081 3232 0722 706 0 050 0250 0100 0050 001 3 841 5 0246 6367 87910 828 具体作法是 1 根据实际问题需要的可信程度确定临界值 2 利用公式 1 由观测数据计算得到随机变量 的观测值 3 如果 就以 的把握认为 X与 Y有关系 否则就说样本观测数据没有提供 X与Y有关系 的 充分证据
展开阅读全文
  麦档网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
0条评论

还可以输入200字符

暂无评论,赶快抢占沙发吧。

关于本文
本文标题:2013新人教A版选修(2-3)3.2《独立性检验的基本思想及其初步应用》3
链接地址:https://www.maidoc.com/p-16374161.html

当前资源信息

wx****8

编号: 20180901091301047592

类型: 共享资源

格式: PPT

大小: 579.00KB

上传时间: 2020-03-26

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

[email protected] 2018-2020 maidoc.com版权所有  文库上传用户QQ群:3303921 

麦档网为“文档C2C模式”,即用户上传的文档所得金币直接给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的金币归上传人(含作者)所有。
备案号:蜀ICP备17040478号-3  
川公网安备:51019002001290号 

本站提供办公文档学习资料考试资料文档下载


收起
展开