相關係數

出自 MBA智库百科(http://wiki.mbalib.com/)

相關係數(Correlation coefficient)

目錄

什麼是相關係數

  相關表相關圖可反映兩個變數之間的相互關係及其相關方向,但無法確切地表明兩個變數之間相關的程度。

  著名統計學家卡爾·皮爾遜設計了統計指標——相關係數。相關係數是用以反映變數之間相關關係密切程度的統計指標。相關係數是按積差方法計算,同樣以兩變數與各自平均值的離差為基礎,通過兩個離差相乘來反映兩變數之間相關程度;著重研究線性的單相關係數。

  依據相關現象之間的不同特征,其統計指標的名稱有所不同。如將反映兩變數間線性相關關係的統計指標稱為相關係數(相關係數的平方稱為判定繫數);將反映兩變數間曲線相關關係的統計指標稱為非線性相關係數、非線性判定繫數;將反映多元線性相關關係的統計指標稱為復相關係數覆判定繫數等。

相關係數的幾種定義

  相關關係是一種非確定性的關係,相關係數是研究變數之間線性相關程度的量。由於研究對象的不同,相關係數有如下幾種定義方式。

  簡單相關係數:又叫相關係數或線性相關係數,一般用字母P 表示,是用來度量變數間的線性關係的量。

  復相關係數:又叫多重相關係數。復相關是指因變數與多個自變數之間的相關關係。例如,某種商品的季節性需求量與其價格水平、職工收入水平等現象之間呈現復相關關係。

  典型相關係數:是先對原來各組變數進行主成分分析,得到新的線性關係的綜合指標,再通過綜合指標之間的線性相關係數來研究原各組變數間相關關係。

相關係數的性質[1]

  (1)|\rho_{XY}| \le 1

  (2)定理: | ρXY | = 1的充要條件是,存在常數a,b,使得\rho \left\{ Y=a+bX \right\}=1

  相關係數ρXY取值在-1到1之問,ρXY = 0時,

  稱X,Y不相關; | ρXY | = 1時,稱X,Y完全相關,此時,X,Y之間具有線性函數關係; | ρXY | < 1時,X的變動引起Y的部分變動,ρXY的絕對值越大,X的變動引起Y的變動就越大, | ρXY | > 0.8時稱為高度相關,當\rho^2_{XY}<0.09,即 | ρXY | < 0.3時,稱為低度相關,其他為中度相關。

  (3)推論:若Y=a+bX,則有

  \rho_{XY}=\begin{cases} 1, & b>0 \\ 0, & b=0 \\ -1, & b<0 \end{cases}

  證明: 令E(X) = μD(X) = σ2

  則E(Y) = bμ + aD(Y) = b2σ2

  E(XY) = E(aX + bX2) = aμ + b2 + μ2)

  Cov(X,Y) = E(XY) − E(X)E(Y) = bσ2

  若b≠0,則\rho=\frac{Cov(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}}= \frac{b\sigma^2}{\sigma |b| \sigma}=\begin{cases} 1, & b>0 \\ -1, & b<0 \end{cases}

  若b=0,則ρXY = 0

相關係數的計算方法

  相關係數的公式如下:[2]

  r=\frac{\sigma{xy}}{\sigma_x\sigma_y}  (1)

  \sigma{xy}=\sigma^2{xy}=\frac{\sum(x-\overline{x})(y-\overline{y})}{n}

  \sigma_x=\sqrt{\frac{\sum(x-\overline{x})^2}{n}}

  \sigma_y=\sqrt{\frac{\sum(y-\overline{y}^2)}{n}}

  r=\frac{\sum(x-\overline{x})(y-\overline{y})}{\sqrt{\sum(x-\overline{x})^2\sum(y-\overline{y})^2}}  (2)

  =\frac{n\sum xy-\sum x\sum y}{\sqrt{n\sum x^2-(\sum x)^2}\cdot\sqrt{n\sum y^2-(\sum y)^2}}  (3)

  =\frac{n^2[\frac{\sum xy}{n}-]}{\frac{\sum x}{n}-\frac{\sum y}{n}}{\sqrt{n^2[\frac{\sum x^2}{n}-(\frac{\sum x}{n})^2]\cdot\sqrt n^2[\frac{\sum y^2}{n}-(\frac{\sum y}{n})^2]}}  (4)

  =\frac{\overline{xy}-\overline{x}\overline{y}}{\sqrt{\sum\overline{x^2}-(\overline{x})^2}\cdot\sqrt{\sum\overline{y^2}-(\overline{y})^2}}  (5)

  L_{xx}=\sum(x-\overline{x})^2=\sum x^2-\frac{(\sum x)^2}{n}

  L_{yy}=\sum(y-\overline{y})^2=\sum y^2-\frac{(\sum y)^2}{n}

  L_{xy}=\sum(x-\overline{x})(y-\overline{y})=\sum xy-\frac{\sum x \sum y}{n}

  r=\frac{L_{xy}}{\sqrt{L_{xx}L_{yy}}}

  相關係數的值介於–1與+1之間,即–1≤r≤+1。其性質如下:

  • 當r>0時,表示兩變數正相關,r<0時,兩變數為負相關
  • 當|r|=1時,表示兩變數為完全線性相關,即為函數關係。
  • 當r=0時,表示兩變數間無線性相關關係。
  • 當0<|r|<1時,表示兩變數存在一定程度的線性相關。且|r|越接近1,兩變數間線性關係越密切;|r|越接近於0,表示兩變數的線性相關越弱。
  • 一般可按三級劃分:|r|<0.4為低度線性相關;0.4≤|r|<0.7為顯著性相關;0.7≤|r|<1為高度線性相關。

  例:某財務軟體公司在全國有許多代理商,為研究它的財務軟體產品的廣告投入與銷售額的關係,統計人員隨機選擇10家代理商進行觀察,搜集到年廣告投入費和月平均銷售額的數據,並編製成相關表,見表1:

  表1  廣告費與月平均銷售額相關表  單位:萬元

年廣告費投入月均銷售額
12.5
15.3
23.2
26.4
33.5
34.4
39.4
45.2
55.4
60.9
21.2
23.9
32.9
34.1
42.5
43.2
49.0
52.8
59.4
63.5

  參照表1,可計算相關係數如表2:

序號廣告投入(萬元)
x
月均銷售額(萬元)
y
x^2y2xy
1
2
3
4
5
6
7
8
9
10
12.5
15.3
23.2
26.4
33.5
34.4
39.4
45.2
55.4
60.9
21.2
23.9
32.9
34.1
42.5
43.2
49.0
52.8
59.4
63.5
156.25
234.09
538.24
696.96
1122.25
1183.36
1552.36
2043.04
3069.16
3708.81
449.44
571.21
1082.41
1162.81
1806.25
1866.24
2401.00
2787.84
3528.36
4032.25
265.00
365.67
763.28
900.24
1423.75
1486.08
1930.60
2386.56
3290.76
3867.15
合計346.2422.514304.5219687.8116679.09
r=\frac{n\sum xy-\sum x\sum y}{\sqrt{n\sum x^2-(\sum x)^2}\sqrt{n\sum y^2-(\sum y)^2}}
=\frac{10\times 16679.09-346.2\times 422.5}{\sqrt{10\times 14304.52-346.2^2}\sqrt{10\times 19687.81-422.5^2}}
=0.9942

  相關係數為0.9942,說明廣告投入費與月平均銷售額之間有高度的線性正相關關係。   

相關係數的應用[1]

  1.在概率論計算中的應用

  例1.若將一枚硬幣拋n次,X表示n次試驗中出現正面的次數,Y表示n次試驗中出現反面的次數。計算ρXY

  解:由於X+Y=n,則Y=-X+n,根據相關係數的性質推論,得ρXY = − 1

  例2.已知隨機變數X、Y分別服從正態分佈N(1,9),N(0,16)且X,Y的相關係數\rho_{XY}=-\frac{1}{2}

  設Z=\frac{X}{3}+\frac{Y}{2},求證X,Z相互獨立。

  證明:由已知得E(X)=1,D(X)=9,E(Y)= 0,D(Y) = 16

  Cov(X,Y)=E(XY)-E(X)E(Y)=\rho_{XY} \bullet \sqrt{D(X)} \bullet \sqrt{D{Y}}=-6

  由於正態分佈的隨機變數的線性組合仍然服從正態分佈,知Z是正態變數。

  根據數學期望的性質有E(Z)=E(\frac{1}{3}X+\frac{1}{2}Y)=\frac{1}{3}E(X)+\frac{1}{2}E(Y)=\frac{1}{3}+\frac{1}{2} \times 0 =\frac{1}{3}

  根據方差的性質有D(Z)=D(\frac{1}{3}X+\frac{1}{2}Y)=\frac{1}{9} D(X) + \frac{1}{4} D(Y) + 2 \times \frac{1}{3} \times \frac{1}{2} Cov(X,Y)=3Z \sim N(\frac{1}{3},3)

  E(XZ)=E(\frac{1}{3}X^2)+\frac{1}{2}XY)=\frac{1}{3}E(X^2) + \frac{1}{2} E(XY)

  由於 E(XY) = Cov(X,Y) + E(X)E(Y) = − 6

  E(X2) = D(X) + [E(X)]2 = 10

  E(XZ)=\frac{1}{3} \times 10 + \frac{1}{2} \times (-6) = \frac{1}{3}

  Cov(X,Z)=E(XZ)-E(X)E(Z)=\frac{1}{3}-1 \times \frac{1}{3}=0

  ρXZ = 0,X,Z不相關。

  由於正態隨機變數的相互獨立與互不相關等價,故X,Z相互獨立。

  因此,一般情況下兩個隨機變數不相關不一定相互獨立。不相關僅指隨機變數之問沒有線性關係,而相互獨立則表明隨機變數之間互不影響,沒有關係。

  2.在企業物流上的應用

  【例】一種新產品上市。在上市之前,公司的物流部需把新產品合理分配到全國的10個倉庫,新品上市一個月後,要評估實際分配方案與之前考慮的其他分配方案中,是實際分配方案好還是其中尚未使用的分配方案更好,通過這樣的評估,可以在下一次的新產品上市使用更準確的產品分配方案,以避免由於分配而產生的積壓和斷貨。表1是根據實際數據所列的數表。

Image:表1 产品分配方案评估.jpg

  通過計算,很容易得出這3個分配方案中,B的相關係數是最大的,這樣就評估到B的分配方案比實際分配方案A更好,在下一次的新產品上市分配計劃中,就可以考慮用B這種分配方法來計算實際分配方案。

  3.在聚類分析中的應用

  【例】如果有若幹個樣品,每個樣品有n個特征,則相關係數可以表示兩個樣品問的相似程度。藉此,可以對樣品的親疏遠近進行距離聚類。例如9個小麥品種(分別用A1,A2,...,A9表示)的6個性狀資料見表2,作相關係數計算並檢驗。

Image:表2 9个小麦品种的6个性状资料.jpg

  由相關係數計算公式可計算出6個性狀間的相關係數,分析及檢驗結果見表3。由表3可以看出,冬季分櫱與每穗粒數之間呈現負相關(ρ = − 0.8982),即麥冬季分櫱越多,那麼每穗的小麥粒數越少,其他性狀之間的關係不顯著。

Image:表3 6个性状间的相关系数.jpg

相關係數的缺點

  需要指出的是,相關係數有一個明顯的缺點,即它接近於1的程度與數據組數n相關,這容易給人一種假象。因為,當n較小時,相關係數的波動較大,對有些樣本相關係數的絕對值易接近於1;當n較大時,相關係數的絕對值容易偏小。特別是當n=2時,相關係數的絕對值總為1。因此在樣本容量n較小時,我們僅憑相關係數較大就判定變數x與y之間有密切的線性關係是不妥當的。

  例如,就我國深滬兩股市資產負債率與每股收益之間的相關關係做研究。發現1999年資產負債率前40名的上市公司,二者的相關係數為r=–0.6139;資產負債率後20名的上市公司,二者的相關係數r=0.1072;而對於滬、深全部上市公司(基金除外)結果卻是,r滬=–0.5509,r深=–0.4361,根據三級劃分方法,兩變數為顯著性相關。這也說明僅憑r的計算值大小判斷相關程度有一定的缺陷。

參考文獻

  1. 1.0 1.1 郭紅霞.相關係數及其應用.武警工程學院學報.2010年3月,第26捲第2期
  2. 王愛蓮.統計學.第七章 相關與回歸分析.第一節 相關分析.西安石油大學.經濟管理學院
本條目對我有幫助212
分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目

評論(共32條)

提示:評論內容為網友針對條目"相關係數"展開的討論,與本站觀點立場無關。
58.240.65.* 在 2008年9月19日 14:04 發表

很有道理

回複評論
125.34.0.* 在 2009年3月16日 12:03 發表

辦得好

回複評論
Dedacom (討論 | 貢獻) 在 2009年6月2日 10:34 發表

謝謝,解釋的很清晰

回複評論
86.196.245.* 在 2009年12月5日 11:12 發表

比我們老師解釋的快多了,哎,我們老師總是把簡單的東西搞的很複雜,還喜歡拽文,再次感謝編纂這個詞條的網友們,謝謝。。

回複評論
211.94.93.* 在 2009年12月22日 11:20 發表

請問這時來自於哪本書的參考資料,謝謝

回複評論
Hnoju (討論 | 貢獻) 在 2009年12月22日 16:11 發表

已查到原文出處,併進行補充

回複評論
117.34.181.* 在 2010年3月15日 20:29 發表

謝謝了,終於知道相關係數的具體演算法了。

回複評論
218.27.4.* 在 2010年3月17日 11:00 發表

用excell可以直接顯示,不用自己求。

回複評論
116.235.173.* 在 2010年4月24日 17:20 發表

公式如何推導可以寫下不?

回複評論
222.168.32.* 在 2010年10月30日 21:43 發表

好啊

回複評論
Lolic (討論 | 貢獻) 在 2010年12月1日 12:15 發表

啊謝謝~~看懂了T T

我也想 知道公式如何推導的

回複評論
Yixi (討論 | 貢獻) 在 2010年12月1日 14:52 發表

Lolic (討論 | 貢獻) 在 2010年12月1日 12:15 發表

啊謝謝~~看懂了T T

我也想 知道公式如何推導的

增加了新的內容,希望對您有幫助;感謝您的參與!

回複評論
218.24.179.* 在 2010年12月27日 20:17 發表

very well

回複評論
113.138.149.* 在 2011年1月23日 12:07 發表

可它是怎麼來的啊?????

回複評論
58.248.164.* 在 2011年1月28日 14:20 發表

有無復相關係數的計算示例?

回複評論
Dan (討論 | 貢獻) 在 2011年1月29日 09:28 發表

58.248.164.* 在 2011年1月28日 14:20 發表

有無復相關係數的計算示例?

參見條目復相關係數

回複評論
129.127.252.* 在 2011年3月6日 14:29 發表

太有用了!!thx

回複評論
218.78.225.* 在 2011年5月3日 19:59 發表

太有用了~~受教

回複評論
222.69.214.* 在 2011年5月8日 14:42 發表

還是沒解釋為什麼相關係數可以度量兩個變數間的線性相關性

回複評論
182.201.40.* 在 2011年6月9日 21:25 發表

好像有些公式是錯的

回複評論
Yixi (討論 | 貢獻) 在 2011年6月10日 10:22 發表

182.201.40.* 在 2011年6月9日 21:25 發表

好像有些公式是錯的

謝謝指正,原文已修正咯~

MBA智庫百科是可以自由參與的百科,如有發現錯誤和不足,您也可以參與修改編輯,只要通過網頁右上角的創建新帳號,創建用戶名後即可參與,期待您的加入哦!~

回複評論
115.196.201.* 在 2011年7月5日 10:39 發表

非常感謝,學到了。

回複評論
27.44.217.* 在 2011年9月21日 00:53 發表

公式錯了,害人不淺

回複評論
27.44.217.* 在 2011年9月21日 02:31 發表

相關係數的值介於–1與+1之間,即–1≤r≤+1。其性質如下:

這段話上面一行,分母少了個開方

回複評論
泡芙小姐 (討論 | 貢獻) 在 2011年9月21日 11:48 發表

27.44.217.* 在 2011年9月21日 02:31 發表

相關係數的值介於–1與+1之間,即–1≤r≤+1。其性質如下:

這段話上面一行,分母少了個開方

謝謝指正,原文已經修改好了。 MBA智庫百科是可以自由參與的百科,如有發現錯誤和不足,您也可以參與修改編輯,只要通過網頁右上角的創建新帳號,創建用戶名後即可參與,期待您的加入哦!~

回複評論
192.122.250.* 在 2012年1月17日 10:32 發表

Very helpful

回複評論
27.213.48.* 在 2012年10月7日 01:39 發表

好,很好

回複評論
58.248.185.* 在 2012年11月27日 17:15 發表

無比感激啊~~

回複評論
114.247.10.* 在 2013年2月12日 17:31 發表

謝謝!有用

回複評論
222.90.74.* 在 2013年5月12日 17:26 發表

寫的很詳細,容易懂。謝謝!

回複評論
155.69.2.* 在 2014年4月27日 03:41 發表

你的條件太強,應該是P(x = ay + b),即概率測度為1,推出person繫數對於值——yiak,王翼

回複評論
222.182.99.* 在 2014年10月13日 17:09 發表

謝謝

回複評論

發表評論請文明上網,理性發言並遵守有關規定。