卡方检验
出自 MBA智库百科(http://wiki.mbalib.com/)
卡方检验(Chi-square test/Chi-Square Goodness-of-Fit Test)
目录 |
什么是卡方检验
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
卡方检验的基本思想
在分类资料统计分析中我们常会遇到这样的资料,如两组大白鼠在不同致癌剂作用下的发癌率如下表,问两组发癌率有无差别?
| 处理 | 发癌数 | 未发癌数 | 合计 | 发癌率% |
|---|---|---|---|---|
| 甲组 | 52 | 19 | 71 | 73.24 |
| 乙组 | 39 | 3 | 42 | 92.86 |
| 合计 | 91 | 22 | 113 | 80.33 |
52、19、39、3是表中最基本的数据,因此,上表资料又被称之为四格表资料。卡方检验的统计量是卡方值,它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。每个格子中的理论频数T是在假定两组的发癌率相等(均等于两组合计的发癌率)的情况下计算出来的,如第一行第一列的理论频数为71*91/113=57.18,故卡方值越大,说明实际频数与理论频数的差别越明显,两组发癌率不同的可能性越大。
卡方检验的类型
1、四格表资料的卡方检验
四格表资料的卡方检验用于进行两个率或两个构成比的比较。
1)专用公式:
若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=(ad − bc)2 * n/(a+b)(c+d)(a+c)(b+d),自由度v=(行数-1)(列数-1)
2)应用条件:
要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,当样本含量小于40时只能用确切概率法计算概率。
2、行X列表资料的卡方检验
行X列表资料的卡方检验用于多个率或多个构成比的比较。
1)专用公式:
r行c列表资料卡方检验的卡方值=
2)应用条件:
要求每个格子中的理论频数T均大于5或1<T<5的格子数不超过总格子数的1/5。当有T<1或1<T<5的格子较多时,可采用并行并列、删行删列、增大样本含量的办法使其符合行X列表资料卡方检验的应用条件。而多个率的两两比较可采用行X列表分割的办法。
3、列联表资料的卡方检验
同一组对象,观察每一个个体对两种分类方法的表现,结果构成双向交叉排列的统计表就是列联表。
1)R*C 列联表的卡方检验:
R*C 列联表的卡方检验用于R*C列联表的相关分析,卡方值的计算和检验过程与行X列表资料的卡方检验相同。
2)2*2列联表的卡方检验:
2*2列联表的卡方检验又称配对记数资料或配对四格表资料的卡方检验,根据卡方值计算公式的不同,可以达到不同的目的。当用一般四格表的卡方检验计算时,卡方值=(ad-bc)2n/(a+b)(c+d)(a+c)(b+d),此时用于进行配对四格表的相关分析,如考察两种检验方法的结果有无关系;当卡方值=( | b − c | − 1)2/(b+c)时,此时卡方检验用来进行四格表的差异检验,如考察两种检验方法的检出率有无差别。
列联表卡方检验应用中的注意事项同R*C表的卡方检验相同。
卡方检验应用实例[1]
1.应用实例——适合度检验
实际执行多项式试验而得到的观察次数,与虚无假设的期望次数相比较,称为卡方适度检验,即在于检验二者接近的程度,利用样本数据以检验总体分布是否为某一特定分布的统计方法。这里以掷骰子为例介绍适度检验的方法。
【例1:】
(1)假设掷一骰子120次,各点数共出现次数为a,b为各点数出现的期望值120x1/6=20,建立工作表文件,如图1所示。
(2)设置零假设Ho:观察分布等于期望分布。
(3)计算卡方检验统计量,如图2所示。
D2=(B2-C2)^2/C2
D_8=SUM(D2:D7)
(4)确定自由度,(6-1)×(2-1)=5;选择显著水平α=0.05。
(5)利用Excel提供的CHIINV函数求临界值,在D9单元格中键入“=CHIINV(0.05,5),,按回车键,得临界值11.07。
(6)比较临界值和统计量,11.07>2.3,即临界值大于统计量,故差异不显著,接受Ho。
2.应用实例2——独立性检验
卡方独立性检验是用来检验两个属性间是否独立。一个变量作为行,另一个变量作为列。下面一例便是介绍卡方独立性检验的方法。
【例2:】某机构欲了解现在性别与收入是否有关,他们随机抽样500人,询问对此的看法,结果分为“有关、无关、不好说,,三种答案,图3中县调查得到的数据。
下面是利用Excel解决此问题的步骤。
(1)零假设Ho:性别与收入无关。
(2)确定自由度为(3-1)×(2-1)=2,选择显著水平α=0.05。
(3)求解男女对收入与性别相关不同看法的期望次数,这里采用所在行列的合计值的乘机除以总计值来计算每一个期望值,如图4所示,在单元格B9中键入“=B5*E3/E5”,同理(第一个等于号理解为在单元格中键入):
B10=“=B5*E4/E5”,
C9=“=C5*E3/E5”,
C10=“=C5*E4/E5”,
D9=“=D5*E3/E5”,
D10=“=D5*E4/E5”。
(4)利用卡方统计量计算公式计算统计量,在单元格B15中键入“=(B3-B9)^2/B9”,其余单元格依次类推,结果如图5所示。
(5)利用Excel提供的CHIINV函数计算显著水平为0.05,自由度为2卡方分布的临界值,在Excel单元格中键入“=CHIINV(0.05,2)”按回车键,得临界值为5.9915。
(6)比较统计量度和临界值,统计量21.4675大于临界值5.9915,故拒绝零假设。
3.应用实例3——统一性检验
检验两个或两个以上总体的某一特性分布,也就是各“类别”的比例是否统一或相近,一般称为卡方统一性检验或者卡方同质性检验。下面一例便是利用卡方统一性检验的例子。
【倒3:】某咨询公司想了解南京和北京的市民对最低生活保障的满意程度是否相同。他们从南京抽出600居民,北京抽取600居民,每个居民对满意程度(非常满意、满意、不满意、非常不满意)任选一种,且只能选一种。将统计结果键入Excel工作表中,如图6所示。
下面是利用Excel解决此问题的步骤。
(1)零假设H0:南京和北京居民对最低生活保障满意程度的比例相同。
(2)确定自由度为(4-1)×(2-1)=3,选择显著水平α=0.05。
(3)求解卡方检验的l临界值,在Excel单元格中键入“=CHIINV(0.05,3)”,按回车键得临界值为7.81。
(4)计算北京和南京不同满意程度的期望值,在单元格Bll和Cll中分别键入“=$B$7*D3/$D$7”和“=$C$7*D3/$D$7”,选中B11:Cll,按住C11右下角填充控制点,填充至C14。
(5)计算卡方统计量,在单元格B19中键入“=(B3-B11)^2/Bll”,其余单元格依次类推,结果如图7所示。
(6)比较统计量和临界值,统计量1.3875小于临界值7.81,故接受零假设。
参考文献
- ↑ 孙志刚,杨聪.Excel在经济与数理统计中的应用.中国电力出版社,2004年01月第1版.
评论(共17条)
很好,谢谢。但请问一下,什么是pearson chi-squsre
您指的pearson chi-squsre,不知是否为Pearson Chi-Square,二者有一单词不一样,Pearson Chi-Square(皮尔森卡方检验)即常用的卡方检验
表1:暗示疗法对癌痛患者止痛剂效果 组别 有效 显效 合计 显效率(%) 实验组 5 39 44 88.64 对照组 13 32 45 71.11 合计 18 71 89 79.78 请帮我计算卡方值,P值有没有意义.谢谢
组别 有效 显效 合计 显效率(%) 实验组 5 39 44 88.64 对照组 13 32 45 71.11 合计 18 71 89 79.78 请帮我计算卡方值,P只是否有意义。万分感谢
谢谢,想问一下,用excel可以卡方检验么?
添加了excel的应用实例,希望对你有帮助~
组别 有效 显效 合计 显效率(%) 实验组 5 39 44 88.64 对照组 13 32 45 71.11 合计 18 71 89 79.78 请帮我计算卡方值,P只是否有意义。万分感谢
Chi-Square Value: 4.235, Critical Value: 3.841, Accept Ha, There is significant difference between Tested and Control Group. It shows that your treatment is valid.
第二个例子漏洞百出
已核对参考文献并进行了修改,希望对您有帮助!
MBA智库百科是可以自由参与的百科,如有发现错误和不足,您也可以参与修改编辑,只要通过网页右上的创建新帐号,创建用户名后即可参与,期待您的加入!~






很好,谢谢。但请问一下,什么是pearson chi-squsre