T检验
出自 MBA智库百科(https://wiki.mbalib.com/)
T检验(T Test)
目录 |
T检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。
T检验是用于小样本(样本容量小于30)的两个平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。
T检验是戈斯特为了观测酿酒质量而发明的。戈斯特在位于都柏林的健力士酿酒厂担任统计学家。戈斯特于1908年在Biometrika上公布T检验,但因其老板认为其为商业机密而被迫使用笔名(学生)。
T检验的适用条件:正态分布资料
目的:比较样本均数 所代表的未知总体均数μ和已知总体均数μ0。
计算公式:
t统计量:
自由度:v=n - 1
适用条件:
(1) 已知一个总体均数;
(2) 可得到一个样本均数及该样本标准误;
(3) 样本来自正态或近似正态总体。
单个样本的t检验实例分析[1]
例1 难产儿出生体重
一般婴儿出生体重μ0 = 3.30(大规模调查获得),问相同否?
解:1.建立假设、确定检验水准α
H0:μ = μ0 (难产儿与一般婴儿出生体重的总均数相等;H0无效假设,null hypothesis)
(难产儿与一般婴儿出生体重的总均数不等;H1备择假设,alternative hypothesis,)
双侧检验,检验水准:α = 0.05
2.计算检验统计量
3.查相应界值表,确定P值,下结论
查附表1: t0.05 / 2.34 = 2.032,t = 1.77,t < t0.05 / 2.34,P > 0.05,按α = 0.05水准,不拒绝H0,两者的差别无统计学意义,尚不能认为难产儿平均出生体重与一般婴儿的出生体重不同
配对设计:将受试对象的某些重要特征按相近的原则配成对子,目的是消除混杂因素的影响,一对观察对象之间除了处理因素/研究因素之外,其它因素基本齐同,每对中的两个个体随机给予两种处理。
- 两种同质对象分别接受两种不同的处理,如性别、年龄、体重、病情程度相同配成对。
- 同一受试对象或同一样本的两个部分,分别接受两种不同的处理
- 自身对比。即同一受试对象处理前后的结果进行比较。
目的:判断不同的处理是否有差别
计算公式及意义:
t 统计量:
自由度:v=对子数-1
适用条件:配对资料
T检验的步骤[2]
1、建立虚无假设H0:μ1 = μ2,即先假定两个总体平均数之间没有显著差异;
2、计算统计量t值,对于不同类型的问题选用不同的统计量计算方法;
1)如果要评断一个总体中的小样本平均数与总体平均值之间的差异程度,其统计量t值的计算公式为:
2)如果要评断两组样本平均数之间的差异程度,其统计量t值的计算公式为:
3、根据自由度df=n-1,查t值表,找出规定的t理论值并进行比较。理论值差异的显著水平为0.01级或0.05级。不同自由度的显著水平理论值记为t(df)0.01和t(df)0.05
4、比较计算得到的t值和理论t值,推断发生的概率,依据下表给出的t值与差异显著性关系表作出判断。
T值与差异显著性关系表 | ||
---|---|---|
t | P值 | 差异显著程度 |
差异非常显著 | ||
差异显著 | ||
t < t(df)0.05 | P > 0.05 | 差异不显著 |
5、根据是以上分析,结合具体情况,作出结论。
例如,T检验可用于比较药物治疗组与安慰剂治疗组病人的测量差别。理论上,即使样本量很小时,也可以进行T检验。(如样本量为10,一些学者声称甚至更小的样本也行),只要每组中变量呈正态分布,两组方差不会明显不同。如上所述,可以通过观察数据的分布或进行正态性检验估计数据的正态假设。方差齐性的假设可进行F检验,或进行更有效的Levene's检验。如果不满足这些条件,只好使用非参数检验代替T检验进行两组间均值的比较。
T检验中的P值是接受两均值存在差异这个假设可能犯错的概率。在统计学上,当两组观察对象总体中的确不存在差别时,这个概率与我们拒绝了该假设有关。一些学者认为如果差异具有特定的方向性,我们只要考虑单侧概率分布,将所得到t-检验的P值分为两半。另一些学者则认为无论何种情况下都要报告标准的双侧T检验概率。
1、数据的排列
为了进行独立样本T检验,需要一个自(分组)变量(如性别:男女)与一个因变量(如测量值)。根据自变量的特定值,比较各组中因变量的均值。用T检验比较下列男、女儿童身高的均值。
性别 | 身高 | |
---|---|---|
对象1 对象2 对象3 对象4 对象5 | 男性 男性 男性 女性 女性 | 111 110 109 102 104 |
男性身高均数 = 110 女性身高均数 = 103 |
2、T检验图
在T检验中用箱式图可以直观地看出均值与方差的比较,见下图:
这些图示能够很快地估计并且直观地表现出分组变量与因变量关联的强度。
3、多组间的比较
科研实践中,经常需要进行两组以上比较,或含有多个自变量并控制各个自变量单独效应后的各组间的比较,(如性别、药物类型与剂量),此时,需要用方差分析进行数据分析,方差分析被认为是T检验的推广。在较为复杂的设计时,方差分析具有许多t-检验所不具备的优点。(进行多次的T检验进行比较设计中不同格子均值时)。
- 要有严密的抽样设计随机、均衡、可比
- 选用的检验方法必须符合其适用条件(注意:t检验的前提是资料服从正态分布)
- 单侧检验和双侧检验
单侧检验的界值小于双侧检验的界值,因此更容易拒绝,犯第Ⅰ错误的可能性大。
- 假设检验的结论不能绝对化
- 不能拒绝H0,有可能是样本数量不够拒绝H0 ,有可能犯第Ⅰ类错误
- 正确理解P值与差别有无统计学意义
P越小,不是说明实际差别越大,而是说越有理由拒绝H0 ,越有理由说明两者有差异,差别有无统计学意义和有无专业上的实际意义并不完全相同
- 假设检验和可信区间的关系
- 结论具有一致性
- 差异:提供的信息不同
区间估计给出总体均值可能取值范围,但不给出确切的概率值,假设检验可以给出H0成立与否的概率
评论(共73条)
very nice... it would be much better if you have a pair sample t-test.
查附表1: t0.05 / 2.34 = 2.032,t = 1.77,t < t0.05 / 2.34, P > 0.05,按α=0.05水准,不拒绝H0,两者的差别无统计学意义 LZ 的意思是不是 T0.05/2(34)=2.032!,下同
第一个t的公式是不是有问题啊,错把n写为x了,好像…
感谢您的指正,原文已修正,并增加了新的内容,谢谢您的参与。
much thx, cannot understand in english but in Mandarin is damn simple!
和楼上有同样疑问 2.032是哪里来的?
查询“t界值表”得来的~
你举的婴儿体重的例子算下来T<T(0.05),P>0.05,不拒绝H0,两者的差别无统计学意义。既然差异概念不大,那最后一个结论我不知道是如何得来的,请教?
公式是错的...Σx1²+Σx2²那里应该是样本一的各数据与平均数一的差的平方的和...加上样本二的各数据与平均数一的差的平方的和...你这错误的公式误人子弟``
much thx, cannot understand in english but in Mandarin is damn simple!
- many thx or thx so much
t0.05 / 2.34 = 2.032中 0.05是P 概率 但是2.34是何物啊?求解释 plz tell me what is 2.34 among t0.05/2.34 ?0.05 is the probability that we searched in the table, but what's 2.34 stands for?
看不懂,有好多字母代表了什么东西都没写出来, 如X等某些词。。。这对外人来说都是不可理解的。
本来就是外行才来上网查,内行你还来查就呵呵了。
用簡單的方式大概講述了 T-test,一路從 常態分佈 假設檢定 Z test 信賴區間 再看到 T 會比較好懂。如果還不行,就從更前面 抽樣隨機分佈 開始看吧
其实掌握一个知识都是循序渐进的,没有了解其他相关统计知识的人突然接触会感到一头雾水也很正常,但是这个编写的已经非常好了,不能理解的人需要自己回去打牢基础,在这里怪别人有什么用?
原文:T检验的步骤[2]中计算t统计量的公式 是不是错了。。应该是t=(x-u)/s根号下(n-1)
好像没错吧
排版有的地方太差了,很影响阅读 比如 "查附表1: t0.05 / 2.34 = 2.032,t = 1.77,t < t0.05 / 2.34,P > 0.05"中 为什么不写成 t_{0.05/2}(34)呢?
看不懂,有好多字母代表了什么东西都没写出来, 如X等某些词。。。 这对外人来说都是不可理解的。