多變數分析
出自 MBA智库百科(https://wiki.mbalib.com/)
多變數分析(Multivariate analysis)
目錄 |
多變數分析是多個變數統計分析技術在社會研究中的運用。又稱多元分析。它的分類方法很多,主要有按變數層次分類和按功能分類。多變數分析為統計方法的一種,包含了許多的方法,最基本的為單變數,再延伸出來的多變數分析。統計資料中有多個變數(或稱因素、指標)同時存在時的統計分析,是統計學的重要分支,是單變數統計的發展。統計學中的多變數統計分析起源於醫學和心理學。1930年代它在理論上發展很快,但由於計算複雜,實際應用很少。1970年代以來由於電腦的蓬勃發展和普及,多變數統計分析已滲入到幾乎所有的學科。到80年代後期,電腦軟體包已很普遍,使用也方便,因此多變數分析方法也更為普及。
例如對630名炊事員高血壓病進行調查,檢查項目中除血壓外,尚有年齡、性別、體重、體胖等15個項目(變數)。如果用單變數統計分析法考察超重與血壓的關係,一般是把數據做成表1的形式。從表1可見,超重組與不超重組相比,高血壓患病率高出一倍以上。但如果把資料按體胖者與不體胖者劃分成兩組,再考察每組內的超重與高血壓患病率的關係,就未能發現超重與高血壓患病率有任何明顯的聯繫。也就是說,單變數統計分析忽視了另外因素(如此例中的體胖及年齡等)的影響。對於有多個變數客觀存在而又相互影響的資料,採用簡單的單變數統計分析是不合理的。多變數統計分析就能把變數間的內在聯繫和相互影響考慮在內。
多變數統計的理論基礎和工具是數學中的概率論和矩陣。但對於實際應用者而言,只要有合適的電腦和軟體包以及掌握一些初步的多變數統計知識就可以使用它來解決實際問題。多變數統計的內容很多,但從實際應用角度看,主要包括回歸分析、判別分析、因數分析、主成分分析、聚類分析、生存分析等六個大的分支。
回歸分析技術:是監督類分析方法,最重要的認識多變數分析的基礎方法,只有掌握了回歸我們才能進入多變數分析,其它很多方法都是變種。主要用在影響研究、滿意度研究等,當然市場研究基本上是解釋性回歸分析,也就是不註重預測而關註解釋自變數對因變數的影響。主要把握R平方、逐步回歸、標準化回歸繫數(當作權重或重要性)等;回歸也是預處理技術,預設值處理等
主成分分析和因數分析:是非監督類分析方法的代表,是主要認識多變數分析的基礎方法,只有掌握了因數分析我們才能進入多因素相互關係的研究;主要用在消費者行為態度等研究、價值觀態度語句的分析、市場細分之前的因數聚類等,問卷的信度和效度檢驗等,因數分析也可算是數據的預處理技術。主成分分析與因數分析是兩種方法,要能夠區分。主成分分析可以消減變數,權重等,主成分還可以用作構建綜合排名!
判別分析技術:判別分析是最好的構建Biplot二元判別圖的好方法,主要用於分類和判別圖,也是圖示化技術的一種;
對應分析技術:市場研究非常有用的研究技術,主要分析定類變數,構建二元圖,也是圖示化技術的一種;
Logistics回歸技術:分類技術,主要針對因變數是0-1情況下的判別,該技術是我們認識非線性關係的重要基礎,很多情況下,我們需要作出是與否的判斷,基礎模型就是它了,像客戶離網分析、客戶價值分析、客戶信用等都用這個模型;
聚類分析技術:主要用在市場細分方面,但聚類分析本質上不是統計分析,是數據處理技術,從事市場細分的人要好好把握,特別是註重聚類分析的細節,可以進行變數和樣本的聚類;記住:樣本聚類有可能數據排列不同聚類結果不同,要進行聚類後的穩定性測試,一般也要採用方差最大旋轉,有時候斜交更適合聚類細分;當然,聚類後的細分市場識別是頭痛問題,用到上面的幾種技術,也很繁瑣!我現在進行市場細分基本上都用數據挖掘軟體工具了!現在比較好用的是Two-Step兩階段聚類;
MDS多維尺度分析技術:這個技術目前不太用了,但它是認識多變數分析技術,尤其是測量與分析技術好的視角。比如,相似性和差異性測量、語異差異法等,洞察潛在消費者心理和潛在分類維度等。
其它:GLM通用線性模型、Logit回歸、Probit分析、可靠性分析等
- 1.回歸分析
當多個變數x1,x2,…,xm(稱為回歸變數或自變數、獨立變數)同時影響某個指標 y(稱為因變數或依賴變數)時,可進行回歸分析,回歸分析的第一個任務就是求回歸變數對指標 y的影響的統計規律性(也稱回歸關係);第二個任務是尋找眾多的回歸變數中哪一些能對指標 y產生影響(常稱為因素分析或變數的篩選);第三個任務(也稱相關分析)是在固定(或稱消除)其他變數的影響後,考察每一個回歸變數對指標 y的相關程度(稱為偏相關係數)。上述三個任務常是相互聯繫,可以同時完成。
回歸變數x1,x2,…,xm與因變數y之間最常見的統計關係有兩大類型:線性模型和非線性模型。線性模型中假定y 的主要部分(記為),可由x1,x2,xm線性表示為
其中b0,b1,b2,…,bm是未知常數,需用樣本去估計,ε 是用取代y後的誤差。這是最常用的模型,稱為多重線性回歸或多元線性回歸。用樣本估計線性回歸模型中未知常數的方法也很多,經典的方法為最小二乘法,它的理論較為完善,此法較適用於回歸變數之間的相關性不很大時。其他求未知常數b0,b1,b2,…,bm的方法還有嶺回歸、特征根回歸、主成分回歸等,它們常用於回歸變數之間相關性很大時。
非線性回歸模型中y的主要部分與x1,x2,…,xm的關係為非線性函數:
其中┃ 的形式已知,未知常數 α1,α2;…用樣本去估計。醫學中最常見的非線性回歸是logistic回歸,它常用於疾病對照研究以及生長髮育問題中。
在前述的炊事員高血壓病調查中,使用線性模型和最小二乘法求出未知常數,再用逐步回歸選取變數,可求得15個變數中有 7個變數對炊事員舒張壓有顯著的影響,它們按偏相關係數大小排列為:年齡 (0.297),體胖程度 (0.253),腎炎史(0.162),性別(0.117),工作類別(0.081),高血壓家族史(0.061),嗜咸程度(0.052)。從相關性大小看,體胖對舒張壓的影響與年齡的影響大體相當。另外還可看出:工種,家族史和嗜咸對舒張壓雖有影響,但影響甚小。
- 2.判別分析
根據樣本的某些指標來決定樣本歸屬的類別。例如在醫療診斷中,要確定一個病人是否患有急性闌尾炎,這就是一個判別問題。為了回答這一問題往往需要對病人進行多項指標(變數)的檢測,然後根據各項指標的觀測值將病人歸入患有急性闌尾炎或不患有急性闌尾炎的類中。判別分析通常是先確立一個判別函數,將各指標的觀測值代入相應的變數,再根據某判別規則(如函數值大於某值)作出判斷、鑒別或決策。例如,為了研究亞硝酸基鹽化合物與胃癌的關係,有人曾對胃癌組(記為H1)、萎縮性胃炎組(H2)、淺表性胃炎組(H3)3組病人測量以下6個指標(變數):性別(x1,男為1,女為0)、年齡(x2)、胃液中pH值(x3)、唾液中亞硝酸鹽濃度(x4)、胃液中亞硝酸鹽濃度(x5)、胃液中二甲基亞硝酸胺濃度 (x6)。用判別分析法,可求出6個指標(變數)在 3個疾病組中分佈有顯著不同的是x1,x2,x4,x6;其餘兩個指標在不同組中的分佈大體相同。對應於每個疾病組可建立以下的判別函數:
u1=-11.48+2.68x1+0.37x2+0.04x4+0.90x6 (H1) u2=-14.06+3.79x1+0.35x2+0.50x4+1.82x6 (H2) u3=-6.36+1.84x1+0.27x2+0.34x4+0.84x6 (H3)
在判別分析時,可將測得的病例值(x1,x2,x4,x6)代入判別函數,求得一組函數值u1,u2,u3。這裡的判別規則是:如果u1最大,則病例判屬疾病組H1;如果u2最大,則判屬H2;如果u3最大,則屬H3。這樣,診斷就變成了數據的處理及分析,現代化醫院自動診斷的原理就基於此。通常說的把醫生的經驗和知識存入電腦,也就是在電腦中建立診斷的經驗方式──判別函數。判別函數中變數前的繫數含有重要的信息。上列中變數x3,x5前的繫數都為0;x1前的3個繫數(2.68,3.79,1.84)說明相對於女性(x1=0)而言,男性 (x1=1)更容易得萎縮性胃炎(3.79)或胃癌(2.68); x2前的3個繫數說明相同年齡者得胃癌、萎縮性胃炎、淺表性胃炎的比為0.37:0.35:0.27;等等。
- 3.因數分析
也稱因素分析。醫學、生物學及一切社會和自然現象中各變數(或事物)之間常存在有相關性或相似性。這是因為變數(或事物)之間往往存在有共性因素(稱為公因數或共性因數),這些共性因數同時影響不同的變數(或事物)。因數分析的根本任務就是從眾多的變數(或事物)中由表及裡找出隱含於它們內部的公因數,指出公因數的主要特點,並用由實際測量到的變數(或事物)構造公因數。因數分析有R型及Q型之分,用於變數之間時稱為 R型因數分析,用於事物之間時稱為Q型。
以R型因數分析為例,設樣本中的變數為x1,x2,…,xm,隱藏的公因數為┃1,┃2,…,┃k。這時每個變數在理論上常可寫成下麵的形式:
上式右邊的第一部分是變數中公因數(┃1,┃2,…,┃k)起作用的部分,後一部分是與公因數無關的部分(稱為獨立性部分)。因數分析的根本任務就是用樣本求出┃1,┃2,…,┃k及其繫數{α嗎},繫數α嗎 稱為權或負荷繫數,當樣本是標準化數據且假定公因數之間彼此不相關時,則權α嗎就是公因數┃j與變數xi間的相關係數。利用因數分析方法可以從所觀測到的變數中推斷出少數因數,用最少的因數來解釋所觀測到的變數,從而揭示事物之間內在的聯繫。對因數的實際解釋必須結合專業知識並由實踐檢驗。例如中國學者梁月華、孫尚拱曾用因數分析法找出隱含在6個易測量的生理指標(收縮壓、 舒張壓、呼吸、心率、體溫及唾液量)內部的公因數┃1,並用實驗判定┃1可很好地代表交感神經的平衡狀態,最後用 ┃1 論證了中醫的“寒熱”其本質就是交感神經的抑制或興奮。
主成分分析 是研究如何把彼此相關的變數綜合成一個(或少數幾個)綜合指標(或稱主成分),而該綜合指標應能最大程度地反映觀測變數所提供的信息。如記(x1,x2,…,xm)為觀測變數,欲求的綜合指標Z一般可寫成
實際上Z往往只能吸收m個變數中相關最大的一部分信息(類似於因數分析中┃1),此當觀測變數間彼此很少有相關性時,使用主成分分析是不合適的。如果觀測變數間相關性可以分成幾組而各組間又很少相關,這時不能用一個主成分綜合全體變數,而應多取幾個主成分。
實際使用時,由於主成分分析與因數分析極為相似,所以不少統計學家常把兩種分析不加區別,名稱也相互套用。
主成分分析在醫學研究中有很多應用,例如有人把5個易測量的老化徵 (白斑、老年斑、閉目單腿直立時間、老年環、脫齒數)綜合成一個指標Z,計算表明綜合值Z可以吸收5個老化徵全體信息中的43%,能綜合地反映出形體老化的程度。
- 4.聚類分析
也稱為分類學。經典的分類學誕生於幾百年前,比如化石分類、植物標本分類等。過去的分類多依靠一些特異性指標。如果對於所需分類的事物,不存在或難以使用特異性指標時就只能採用多變數統計分析法。把數學方法引進分類學並稱之為“聚類分析”是60年代的事。此後聚類分析發展很快,並取得廣泛應用,但還不大成熟。
聚類分析也可分為 R型及Q型,對變數作分類稱R型,對樣品(觀察單元、事物)作分類稱 Q型。分類的基礎是相似性或距離。如果兩個變數(或樣品)彼此相似或距離很近,自然就分在同一類。因此在進行聚類分析時必須先定義相似性或距離。相似性或距離的定義法種類繁多。例如,常用變數間的相關係數代表變數間的相似性,以幾何中兩點間的歐氏距離(先要去量綱)代表兩個樣品間的距離。然後選用分類的數學公式,對它們的分類作出判別。這些公式也是種類繁多。至今沒有一種公式是最優的。實際工作者常選用多種方法試算,再結合專業知識確定分類的結果。
- 5.生存分析
生存分析起源於壽命表。生物的生存時間除了受健康的影響外,同時還受社會因素,生活條件等影響。生存分析研究哪些因素對“壽命”有顯著影響,它的風險程度如何。20世紀末生存分析已不僅用於研究人的壽命問題,還用於一切廣義的“壽命”或有關“死亡”的問題,比如發動機的壽命,病人手術後的生存時間,兩種療效的對比分析等。生存分析有多種模型,最常用的有Cox回歸模型,它的特點是:m個變數聯合作用的相對風險可以表示成每個變數單獨作用時相對風險的乘積(故也稱為乘法模型)。另外常用的模型為可加性模型,它的特點是:m 個變數聯合作用的相對風險可表示為每個變數單獨作用之和。究竟應使用什麼樣的模型應在具體問題中結合專業知識確定。