相关系数

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

相关系数(Correlation coefficient)

目录

什么是相关系数

  相关表相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。

  著名统计学家卡尔·皮尔逊设计了统计指标——相关系数。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。

  依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数复判定系数等。

相关系数的几种定义

  相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。由于研究对象的不同,相关系数有如下几种定义方式。

  简单相关系数:又叫相关系数或线性相关系数,一般用字母P 表示,是用来度量变量间的线性关系的量。

  复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。

  典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。

相关系数的性质[1]

  (1)|\rho_{XY}| \le 1

  (2)定理: | ρXY | = 1的充要条件是,存在常数a,b,使得\rho \left\{ Y=a+bX \right\}=1

  相关系数ρXY取值在-1到1之问,ρXY = 0时,

  称X,Y不相关; | ρXY | = 1时,称X,Y完全相关,此时,X,Y之间具有线性函数关系; | ρXY | < 1时,X的变动引起Y的部分变动,ρXY的绝对值越大,X的变动引起Y的变动就越大, | ρXY | > 0.8时称为高度相关,当\rho^2_{XY}<0.09,即 | ρXY | < 0.3时,称为低度相关,其他为中度相关。

  (3)推论:若Y=a+bX,则有

  \rho_{XY}=\begin{cases} 1, & b>0 \\ 0, & b=0 \\ -1, & b<0 \end{cases}

  证明: 令E(X) = μD(X) = σ2

  则E(Y) = bμ + aD(Y) = b2σ2

  E(XY) = E(aX + bX2) = aμ + b2 + μ2)

  Cov(X,Y) = E(XY) − E(X)E(Y) = bσ2

  若b≠0,则\rho=\frac{Cov(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}}= \frac{b\sigma^2}{\sigma |b| \sigma}=\begin{cases} 1, & b>0 \\ -1, & b<0 \end{cases}

  若b=0,则ρXY = 0

相关系数的计算方法

  相关系数的公式如下:[2]

  r=\frac{\sigma{xy}}{\sigma_x\sigma_y}  (1)

  \sigma{xy}=\sigma^2{xy}=\frac{\sum(x-\overline{x})(y-\overline{y})}{n}

  \sigma_x=\sqrt{\frac{\sum(x-\overline{x})^2}{n}}

  \sigma_y=\sqrt{\frac{\sum(y-\overline{y}^2)}{n}}

  r=\frac{\sum(x-\overline{x})(y-\overline{y})}{\sqrt{\sum(x-\overline{x})^2\sum(y-\overline{y})^2}}  (2)

  =\frac{n\sum xy-\sum x\sum y}{\sqrt{n\sum x^2-(\sum x)^2}\cdot\sqrt{n\sum y^2-(\sum y)^2}}  (3)

  =\frac{n^2[\frac{\sum xy}{n}-]}{\frac{\sum x}{n}-\frac{\sum y}{n}}{\sqrt{n^2[\frac{\sum x^2}{n}-(\frac{\sum x}{n})^2]\cdot\sqrt n^2[\frac{\sum y^2}{n}-(\frac{\sum y}{n})^2]}}  (4)

  =\frac{\overline{xy}-\overline{x}\overline{y}}{\sqrt{\sum\overline{x^2}-(\overline{x})^2}\cdot\sqrt{\sum\overline{y^2}-(\overline{y})^2}}  (5)

  L_{xx}=\sum(x-\overline{x})^2=\sum x^2-\frac{(\sum x)^2}{n}

  L_{yy}=\sum(y-\overline{y})^2=\sum y^2-\frac{(\sum y)^2}{n}

  L_{xy}=\sum(x-\overline{x})(y-\overline{y})=\sum xy-\frac{\sum x \sum y}{n}

  r=\frac{L_{xy}}{\sqrt{L_{xx}L_{yy}}}

  相关系数的值介于–1与+1之间,即–1≤r≤+1。其性质如下:

  • 当r>0时,表示两变量正相关,r<0时,两变量为负相关
  • 当|r|=1时,表示两变量为完全线性相关,即为函数关系。
  • 当r=0时,表示两变量间无线性相关关系。
  • 当0<|r|<1时,表示两变量存在一定程度的线性相关。且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱。
  • 一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性相关;0.7≤|r|<1为高度线性相关。

  例:某财务软件公司在全国有许多代理商,为研究它的财务软件产品的广告投入与销售额的关系,统计人员随机选择10家代理商进行观察,搜集到年广告投入费和月平均销售额的数据,并编制成相关表,见表1:

  表1  广告费与月平均销售额相关表  单位:万元

年广告费投入月均销售额
12.5
15.3
23.2
26.4
33.5
34.4
39.4
45.2
55.4
60.9
21.2
23.9
32.9
34.1
42.5
43.2
49.0
52.8
59.4
63.5

  参照表1,可计算相关系数如表2:

序号广告投入(万元)
x
月均销售额(万元)
y
x^2y2xy
1
2
3
4
5
6
7
8
9
10
12.5
15.3
23.2
26.4
33.5
34.4
39.4
45.2
55.4
60.9
21.2
23.9
32.9
34.1
42.5
43.2
49.0
52.8
59.4
63.5
156.25
234.09
538.24
696.96
1122.25
1183.36
1552.36
2043.04
3069.16
3708.81
449.44
571.21
1082.41
1162.81
1806.25
1866.24
2401.00
2787.84
3528.36
4032.25
265.00
365.67
763.28
900.24
1423.75
1486.08
1930.60
2386.56
3290.76
3867.15
合计346.2422.514304.5219687.8116679.09
r=\frac{n\sum xy-\sum x\sum y}{\sqrt{n\sum x^2-(\sum x)^2}\sqrt{n\sum y^2-(\sum y)^2}}
=\frac{10\times 16679.09-346.2\times 422.5}{\sqrt{10\times 14304.52-346.2^2}\sqrt{10\times 19687.81-422.5^2}}
=0.9942

  相关系数为0.9942,说明广告投入费与月平均销售额之间有高度的线性正相关关系。   

相关系数的应用[1]

  1.在概率论计算中的应用

  例1.若将一枚硬币抛n次,X表示n次试验中出现正面的次数,Y表示n次试验中出现反面的次数。计算ρXY

  解:由于X+Y=n,则Y=-X+n,根据相关系数的性质推论,得ρXY = − 1

  例2.已知随机变量X、Y分别服从正态分布N(1,9),N(0,16)且X,Y的相关系数\rho_{XY}=-\frac{1}{2}

  设Z=\frac{X}{3}+\frac{Y}{2},求证X,Z相互独立。

  证明:由已知得E(X)=1,D(X)=9,E(Y)= 0,D(Y) = 16

  Cov(X,Y)=E(XY)-E(X)E(Y)=\rho_{XY} \bullet \sqrt{D(X)} \bullet \sqrt{D{Y}}=-6

  由于正态分布的随机变量的线性组合仍然服从正态分布,知Z是正态变量。

  根据数学期望的性质有E(Z)=E(\frac{1}{3}X+\frac{1}{2}Y)=\frac{1}{3}E(X)+\frac{1}{2}E(Y)=\frac{1}{3}+\frac{1}{2} \times 0 =\frac{1}{3}

  根据方差的性质有D(Z)=D(\frac{1}{3}X+\frac{1}{2}Y)=\frac{1}{9} D(X) + \frac{1}{4} D(Y) + 2 \times \frac{1}{3} \times \frac{1}{2} Cov(X,Y)=3Z \sim N(\frac{1}{3},3)

  E(XZ)=E(\frac{1}{3}X^2)+\frac{1}{2}XY)=\frac{1}{3}E(X^2) + \frac{1}{2} E(XY)

  由于 E(XY) = Cov(X,Y) + E(X)E(Y) = − 6

  E(X2) = D(X) + [E(X)]2 = 10

  E(XZ)=\frac{1}{3} \times 10 + \frac{1}{2} \times (-6) = \frac{1}{3}

  Cov(X,Z)=E(XZ)-E(X)E(Z)=\frac{1}{3}-1 \times \frac{1}{3}=0

  ρXZ = 0,X,Z不相关。

  由于正态随机变量的相互独立与互不相关等价,故X,Z相互独立。

  因此,一般情况下两个随机变量不相关不一定相互独立。不相关仅指随机变量之问没有线性关系,而相互独立则表明随机变量之间互不影响,没有关系。

  2.在企业物流上的应用

  【例】一种新产品上市。在上市之前,公司的物流部需把新产品合理分配到全国的10个仓库,新品上市一个月后,要评估实际分配方案与之前考虑的其他分配方案中,是实际分配方案好还是其中尚未使用的分配方案更好,通过这样的评估,可以在下一次的新产品上市使用更准确的产品分配方案,以避免由于分配而产生的积压和断货。表1是根据实际数据所列的数表。

Image:表1 产品分配方案评估.jpg

  通过计算,很容易得出这3个分配方案中,B的相关系数是最大的,这样就评估到B的分配方案比实际分配方案A更好,在下一次的新产品上市分配计划中,就可以考虑用B这种分配方法来计算实际分配方案。

  3.在聚类分析中的应用

  【例】如果有若干个样品,每个样品有n个特征,则相关系数可以表示两个样品问的相似程度。借此,可以对样品的亲疏远近进行距离聚类。例如9个小麦品种(分别用A1,A2,...,A9表示)的6个性状资料见表2,作相关系数计算并检验。

Image:表2 9个小麦品种的6个性状资料.jpg

  由相关系数计算公式可计算出6个性状间的相关系数,分析及检验结果见表3。由表3可以看出,冬季分蘖与每穗粒数之间呈现负相关(ρ = − 0.8982),即麦冬季分蘖越多,那么每穗的小麦粒数越少,其他性状之间的关系不显著。

Image:表3 6个性状间的相关系数.jpg

相关系数的缺点

  需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。

  例如,就我国深沪两股市资产负债率与每股收益之间的相关关系做研究。发现1999年资产负债率前40名的上市公司,二者的相关系数为r=–0.6139;资产负债率后20名的上市公司,二者的相关系数r=0.1072;而对于沪、深全部上市公司(基金除外)结果却是,r沪=–0.5509,r深=–0.4361,根据三级划分方法,两变量为显著性相关。这也说明仅凭r的计算值大小判断相关程度有一定的缺陷。

参考文献

  1. 1.0 1.1 郭红霞.相关系数及其应用.武警工程学院学报.2010年3月,第26卷第2期
  2. 王爱莲.统计学.第七章 相关与回归分析.第一节 相关分析.西安石油大学.经济管理学院
本条目对我有帮助351
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您认为本条目还有待完善,需要补充新内容或修改错误内容,请编辑条目

评论(共41条)

提示:评论内容为网友针对条目"相关系数"展开的讨论,与本站观点立场无关。
58.240.65.* 在 2008年9月19日 14:04 发表

很有道理

回复评论
125.34.0.* 在 2009年3月16日 12:03 发表

办得好

回复评论
Dedacom (Talk | 贡献) 在 2009年6月2日 10:34 发表

谢谢,解释的很清晰

回复评论
86.196.245.* 在 2009年12月5日 11:12 发表

比我们老师解释的快多了,哎,我们老师总是把简单的东西搞的很复杂,还喜欢拽文,再次感谢编纂这个词条的网友们,谢谢。。

回复评论
211.94.93.* 在 2009年12月22日 11:20 发表

请问这时来自于哪本书的参考资料,谢谢

回复评论
Angle Roh (Talk | 贡献) 在 2009年12月22日 16:11 发表

已查到原文出处,并进行补充

回复评论
117.34.181.* 在 2010年3月15日 20:29 发表

谢谢了,终于知道相关系数的具体算法了。

回复评论
218.27.4.* 在 2010年3月17日 11:00 发表

用excell可以直接显示,不用自己求。

回复评论
116.235.173.* 在 2010年4月24日 17:20 发表

公式如何推导可以写下不?

回复评论
222.168.32.* 在 2010年10月30日 21:43 发表

好啊

回复评论
Lolic (Talk | 贡献) 在 2010年12月1日 12:15 发表

啊谢谢~~看懂了T T

我也想 知道公式如何推导的

回复评论
Yixi (Talk | 贡献) 在 2010年12月1日 14:52 发表

Lolic (Talk | 贡献) 在 2010年12月1日 12:15 发表

啊谢谢~~看懂了T T

我也想 知道公式如何推导的

增加了新的内容,希望对您有帮助;感谢您的参与!

回复评论
218.24.179.* 在 2010年12月27日 20:17 发表

very well

回复评论
113.138.149.* 在 2011年1月23日 12:07 发表

可它是怎么来的啊?????

回复评论
58.248.164.* 在 2011年1月28日 14:20 发表

有无复相关系数的计算示例?

回复评论
Dan (Talk | 贡献) 在 2011年1月29日 09:28 发表

58.248.164.* 在 2011年1月28日 14:20 发表

有无复相关系数的计算示例?

参见条目复相关系数

回复评论
129.127.252.* 在 2011年3月6日 14:29 发表

太有用了!!thx

回复评论
218.78.225.* 在 2011年5月3日 19:59 发表

太有用了~~受教

回复评论
222.69.214.* 在 2011年5月8日 14:42 发表

还是没解释为什么相关系数可以度量两个变量间的线性相关性

回复评论
182.201.40.* 在 2011年6月9日 21:25 发表

好像有些公式是错的

回复评论
Yixi (Talk | 贡献) 在 2011年6月10日 10:22 发表

182.201.40.* 在 2011年6月9日 21:25 发表

好像有些公式是错的

谢谢指正,原文已修正咯~

MBA智库百科是可以自由参与的百科,如有发现错误和不足,您也可以参与修改编辑,只要通过网页右上角的创建新帐号,创建用户名后即可参与,期待您的加入哦!~

回复评论
115.196.201.* 在 2011年7月5日 10:39 发表

非常感谢,学到了。

回复评论
27.44.217.* 在 2011年9月21日 00:53 发表

公式错了,害人不浅

回复评论
27.44.217.* 在 2011年9月21日 02:31 发表

相关系数的值介于–1与+1之间,即–1≤r≤+1。其性质如下:

这段话上面一行,分母少了个开方

回复评论
泡芙小姐 (Talk | 贡献) 在 2011年9月21日 11:48 发表

27.44.217.* 在 2011年9月21日 02:31 发表

相关系数的值介于–1与+1之间,即–1≤r≤+1。其性质如下:

这段话上面一行,分母少了个开方

谢谢指正,原文已经修改好了。 MBA智库百科是可以自由参与的百科,如有发现错误和不足,您也可以参与修改编辑,只要通过网页右上角的创建新帐号,创建用户名后即可参与,期待您的加入哦!~

回复评论
192.122.250.* 在 2012年1月17日 10:32 发表

Very helpful

回复评论
27.213.48.* 在 2012年10月7日 01:39 发表

好,很好

回复评论
58.248.185.* 在 2012年11月27日 17:15 发表

无比感激啊~~

回复评论
114.247.10.* 在 2013年2月12日 17:31 发表

谢谢!有用

回复评论
222.90.74.* 在 2013年5月12日 17:26 发表

写的很详细,容易懂。谢谢!

回复评论
155.69.2.* 在 2014年4月27日 03:41 发表

你的条件太强,应该是P(x = ay + b),即概率测度为1,推出person系数对于值——yiak,王翼

回复评论
222.182.99.* 在 2014年10月13日 17:09 发表

谢谢

回复评论
110.80.33.* 在 2015年7月27日 17:40 发表

58.248.185.* 在 2012年11月27日 17:15 发表

无比感激啊~~

通俗易懂啊

回复评论
110.80.33.* 在 2015年7月27日 17:41 发表

110.80.33.* 在 2015年7月27日 17:40 发表

通俗易懂啊

Very helpful

回复评论
110.80.33.* 在 2015年7月27日 17:44 发表

110.80.33.* 在 2015年7月27日 17:41 发表

Very helpful

thx

回复评论
101.13.17.* 在 2015年12月18日 22:49 发表

一開始的Y的標準差公式的平方好像打錯地方了

回复评论
121.33.48.* 在 2015年12月24日 17:18 发表

请问在第三个实例“在聚类分析中的应用”使用的距离统计量是哪个? 我试了好几个也没试出来。多谢。

回复评论
寒曦 (Talk | 贡献) 在 2015年12月25日 09:20 发表

121.33.48.* 在 2015年12月24日 17:18 发表

请问在第三个实例“在聚类分析中的应用”使用的距离统计量是哪个? 我试了好几个也没试出来。多谢。

应该是在表中。MBA智库百科是可以自由参与的百科,如有发现错误和不足,您也可以参与修改编辑,只要通过网页右上角的创建新帐号,创建用户名后即可参与,期待您的加入哦!~

回复评论
寒曦 (Talk | 贡献) 在 2015年12月25日 09:21 发表

101.13.17.* 在 2015年12月18日 22:49 发表

一開始的Y的標準差公式的平方好像打錯地方了

MBA智库百科是可以人人都能参与的百科,如有发现错误和不足,您也可以参与修改编辑,只要通过网页右上角的创建新帐号,创建用户名后即可参与,期待您的加入哦!~

回复评论
121.33.50.* 在 2015年12月25日 14:02 发表

寒曦 (Talk | 贡献) 在 2015年12月25日 09:20 发表

应该是在表中。MBA智库百科是可以自由参与的百科,如有发现错误和不足,您也可以参与修改编辑,只要通过网页右上角的创建新帐号,创建用户名后即可参与,期待您的加入哦!~

我已查清楚。 这里是聚类分析中的变量相似度检验(可以用相关系数或者余弦夹角)

回复评论
183.48.89.* 在 2018年8月13日 11:44 发表

有没有人知道rho的检验方法是用哪个?

回复评论

发表评论请文明上网,理性发言并遵守有关规定。

MBA智库
打开APP

以上内容根据网友推荐自动排序生成