多元統計
出自 MBA智库百科(https://wiki.mbalib.com/)
目錄 |
多元統計是研究多個隨機變數之間相互依賴關係以及內在統計規律性的一門統計學科。[1]
多元統計的分類問題[2]
多元統計分析中可以將變數或樣本進行分類的方法很多.如判別分析,聚類分析,主成分分析,可視化分析等。儘管這些分析方法都可以基於所測量的一些特征,給出好的分組方法.對相似的對象或變數進行分組,但由於每種方法的原理不同,因此分組結果往往不同,從而解釋不同。
聚類分析是將樣品(或變數)進行分類時常用的統計方法。按分類對象的不同,分為樣品聚類(型聚類)和變數聚類(型聚類)。樣品聚類是進行判別分析前的必要工作。根據樣品聚類的結果作判別分析,得到判別函數,進而對新的樣本進行歸類判別。變數聚類在尋找研究對象彼此獨立的有代表性變數上發揮著巨大的作用。
聚類方式是用來歸類的某種規則.常用的聚類方式主要有系統聚類,K均值聚類,有序樣品的聚類等。在系統聚類中,樣品歸為某一類便不能改變.因此要求各步驟的分類必須準確,分類方法恰當。另外,系統聚類需要計算樣品(或變數)間的距離(或相似性)和類間距離,要保存“類間距離”矩陣,相應計算量比較大,占用電腦記憶體較多。但系統聚類可以對不同類數產生一系列的分類結果。K均值聚類是一種迭代計算方法,按要求先給出一種粗糙的分類,然後根據某種原則進行迭代,樣品(或變數)可以在不同的類中有進有出,直到分類比較合理為止。K均值聚類對電腦性能要求不高,聚類結果比較簡單易懂.適用於事先明確分類數目及樣本量很大時的聚類分析;但K均值聚類只能產生指定類數的分類結果。鑒於系統聚類和K均值聚類的優缺點.在實際問題中,往往從樣本巾先選取少量數據進行系統聚類,選取合適的類數.然後採用K均值聚類的方法進行聚類。若樣品的次序不可改變,則只可以採用有序樣品的聚類方法。
主成分分析是通過一組變數的幾個線性組合解釋原來變數絕大多數信息的一種統計方法。聚類分析不改變原始數據,只是根據樣本或變數之間的距離遠近或者相似性進行分類。不同於聚類分析,應用主成分分析進行分類。是將原始變數轉化為少數幾個變數,這些少數的變數(主成分)是原始變數的線性組合。以每個樣本的第一、第二主成分的值為變數進行聚類,或以第一、第二主成分為坐標軸,在平面上標H{每個樣本,根據圖示,按照距離的遠近對樣本進行分類。另外,還可以以變數的因數得分做點圖,得到變數的分類情況,從而加深對樣本分類含義的全面理解。
主成分分類與一般的聚類方法相比.具有明顯的優越性:首先,主成分分類可以以點圖的方式將樣本分類結果形象直觀地呈現出來.有利於對分類結果的理解,也有利於對類型的形成原因進行探討。其次,可以藉助主成分分類的中間成果對因數載荷矩陣進行點圖分類,這樣不僅能得到變數的分類情況,還能加深對樣本分類含義的全面理解。
在多元統計分析中。一些可視化的分析可以從不同角度對樣本進行分類。例如反映多個變數之間相關關係的矩陣散點圖。矩陣散點圖不僅可以在二維平面上同時反映多個變數數值,而且可以根據圖示。從某個變數的角度看,將樣本根據距離的遠近進行分類。依據矩陣散點圖的分類結果,可以與系統聚類中只考慮一個變數的分類情況進行對比、分析。利用可視化分類分類結果形象、直觀。
在生產決策和日常生活中.經常會遇到根據所觀測的樣本數據資料對所研究的對象進行分類判別的問題。例如某醫院有部分患有肝炎、糖尿病、冠心病等病人的資料,記錄了每個病人若幹項癥狀指標數據。對於一個新病人,當測得這些指標時,如何利用現有的資料找出一種方法,判別患者患有哪種病。
在市場預測中,根據以往調查所得的各項指標,如何判別下季度的產品是暢銷、平銷,還是滯銷。判別分析就是判斷所選樣品屬於哪一類型的一種多元統計方法。不同於聚類分析,主成分分類和可視化分類。事先並不知道類的數量和類別.判別分析是已知類的數量和類別,並且知道每個類的一些樣本的觀測數據,在此基礎上,依據某種分類準則建立分類判別式,並對新給出的樣本判別其的歸屬問題。實際應用中,判別分析和聚類分析往往是結合在一起使用的。當判別分析的類別不清楚時,可先用聚類分析等分類的方法對部分樣品進行分類,然後用判別分析法建立適當的判別準則實現對新樣品的分類。