探索性因數分析法
出自 MBA智库百科(https://wiki.mbalib.com/)
探索性因數分析法(Exploratory Factor Analysis,EFA)
目錄 |
探索性因數分析法(Exploratory Factor Analysis,EFA)是一項用來找出多元觀測變數的本質結構、併進行處理降維的技術。 因而,EFA能夠將將具有錯綜複雜關係的變數綜合為少數幾個核心因數。
因數分析法是兩種分析形式的統一體, 即驗證性分析和純粹的探索性分析。 英國的心理學家Charles Spearman在1904年的時候,提出單一化的智能因數(A Single Intellectual Factor)。 隨著試驗的深入,大量個體樣本被分析研究,Spearman的單一智能因數理論被證明是不充分的。 同時,人們認識到有必要考慮多元因數。 20世紀30年代,瑞典心理學家Thurstone打破了流行的單因理論假設,大膽提出了多元因數分析(Multiple Factor Analysis)理論。 Thurstone在他的《心智向量》(Vectors of Mind, 1935)一書中,闡述了多元因數分析理論的數學和邏輯基礎。
探索性因數分析和驗證性因數分析的異同[1]
探索性因數分析和驗證性因數分析相同之處
兩種因數分析都是以普通因數分析模型作為理論基礎,其主要目的都是濃縮數據,通過對諸多變數的相關性研究,可以用假想的少數幾個變數(因數、潛變數)來表示原來變數(觀測變數)的主要信息。圖1所示即為最簡單、也最為常見的因數模型,每個觀測變數(指標)只在一個因數(潛變數)上負荷不為零,x1、x2 、x3是潛變數ξ1的指標,x4、x5是潛變數ξ2的指標。
將圖1所示的因數模型推廣至一般意義上的因數模型後,各觀測變數x_i與m個公共因數ξ1,ξ2,...,ξm之間的關係可以用數學模型表示如下:
x1 = λ11ξ1 + λ12ξ2 + ... + λ1mξm + δ1
......
xk = λk1ξ1 + λk2ξ2 + ... + λkmξm + δk
其中:xi為各觀測變數;ξi是公共因數;δi是xi,的特殊因數,有時也稱誤差項,包括xi的唯一性因數和誤差因數兩部分;λij是公共因數的負載;m是公共因數ξ1,ξ2,...,ξm的個數,k是各觀測變數x1,...,xk的個數,m<k。上式也可以簡單地用矩陣表示如下:x = Λxξ + δ
其中:
x = (x1,x2,...,xk)T , ξ = (ξ1,ξ2,...,ξm)T ,δ = (δ1,δ2,...,δk)T
,是負載矩陣
探索性因數分析和驗證性因數分析的差異之處
- 1.基本思想不同
因數分析的基本思想是要尋找公共因數,以達到降維的目的。探索性因數分析主要是為了找出影響觀測變數的因數個數,以及各個因數和各個觀測變數之間的相關程度,以試圖揭示一套相對比較大的變數的內在結構。研究者的假定是每個指標變數都與某個因數匹配,而且只能通過因數載荷憑知覺推斷數據的因數結構。而驗證性因數分析的主要目的是決定事前定義因數的模型擬合實際數據的能力,以試圖檢驗觀測變數的因數個數和因數載荷是否與基於預先建立的理論的預期一致。指標變數是基於先驗理論選出的,而因數分析是用來看它們是否如預期的一樣。其先驗假設是每個因數都與一個具體的指示變數子集對應,並且至少要求預先假設模型中因數的數目,但有時也預期哪些變數依賴哪個因數。
- 2.應用前提不同
探索性因數分析沒有先驗信息,而驗證性因數分析有先驗信息。探索性因數分析是在事先不知道影響因數的基礎上,完全依據樣本數據,利用統計軟體以一定的原則進行因數分析,最後得出因數的過程。
在進行探索性因數分析之前,不必知道要用幾個因數,以及各因數和觀測變數之間的關係。在進行探索性因數分析時,由於沒有先驗理論,只能通過因數載荷憑知覺推斷數據的因數結構。上述數學模型中的公共因數數m 在分析前並未確定,而是在分析過程中視中間結果而決定,各個公共因數ξi統一地規定為均影響每個觀測變數xi。在管理研究中,如僅僅從數據出發,很難得到科學的結果,甚至可能與已有的理論或經驗相悖。因此,探索性因數分析更適合於在沒有理論支持的情況下對數據的試探性分析。這就需要用驗證性因數分析來做進一步檢驗。而驗證性因數分析則是基於預先建立的理論,要求事先假設因數結構,其先驗假設是每個因數都與一個具體的指示變數子集對應,以檢驗這種結構是否與觀測數據一致。也就是在上述數學模型中,首先要根據先驗信息判定公共因數數m,同時還要根據實際情況將模型中某些參數設定為某一定值。這樣,驗證性因數分析也就充分利用了先驗信息,在已知因數的情況下檢驗所搜集的數據資料是否按事先預定的結構方式產生作用。
- 3.理論假設不同
探索性因數分析的假設主要包括:①所有的公共因數都相關(或都不相關);②所有的公共因數都直接影響所有的觀測變數;③ 特殊(唯一性)因數之間相互獨立;④ 所有觀測變數只受一個特殊(唯一性)因數的影響;⑤ 公共因數與特殊因數(唯一性)相互獨立。驗證性因數分析剋服了探索性因數分析假設條件約束太強的缺陷,其假設主要包括:① 公共因數之間可以相關,也可以無關;② 觀測變數可以只受一個或幾個公共因數的影響,而不必受所有公共因數的影響;③特殊因數之間可以相關,還可以出現不存在誤差因素的觀測變數;④ 公共因數與特殊因數之間相互獨立。
- 4.分析步驟不同
探索性因數分析主要有以下七個步驟:① 收集觀測變數:通常採用抽樣的方法,按照實際情況收集觀測變數數據。② 構造相關矩陣:根據相關矩陣可以確定是否適合進行因數分析。③確定因數個數:可根據實際情況事先假定因數個數,也可以按照特征根大於1的準則或碎石準則來確定因數個數。④ 提取因數:可以根據需要選擇合適的因數提取方法,如主成分方法、加權最小平方法、極大似然法等。⑤ 因數旋轉:由於初始因數綜合性太強,難以找出實際意義,因此一般都需要對因數進行旋轉(常用的旋轉方法有正交旋轉、斜交旋轉等),以便於對因數結構進行合理解釋。⑥解釋因數結構:可以根據實際情況及負載大小對因數進行具體解釋。⑦計算因數得分:可以利用公共因數來做進一步的研究,如聚類分析、評價等。
而驗證性因數分析主要有以下六個步驟:① 定義因數模型:包括選擇因數個數和定義因數載荷。因數載荷可以事先定為0、或者其它自由變化的常數,或者在一定的約束條件下變化的數(比如與另一載荷相等)。② 收集觀測值:根據研究目的收集觀測值。③獲得相關係數矩陣:根據原始資料數據獲得變數協方差陣。④ 擬合模型:這裡需要選擇一種方法(如極大似然估計、漸進分佈自由估計等)來估計自由變化的因數載荷。⑤ 評價模型:當因數模型能夠擬合數據時,因數載荷的選擇要使模型暗含的相關矩陣與實際觀測矩陣之間的差異最小。常用的統計參數有:卡方擬合指數(x2)、比較擬合指數(CFI)、擬合優度指數(GFI)和估計誤差均方根(RMSEA)。根據Bentler(1990)的建議標準,x2/DF≤3.0、CFI≥0.90、GFI≥0.85、RMSE≤0.05,則表明該模型的擬合程度是可接受的。⑥修正模型:如果模型擬合效果不佳,應根據理論分析修正或重新限定約束關係,對模型進行修正,以得到最優模型。
- 5.主要應用範圍不同
探索性因數分析主要應用於三個方面:①尋求基本結構,解決多元統計分析中的變數間強相關問題;② 數據化簡;③發展測量量表。驗證性因數分析允許研究者將觀察變數依據理論或先前假設構成測量模式,然後評價此因數結構和該理論界定的樣本資料間符合的程度。因此,主要應用於以下三個方面:① 驗證量表的維度或面向性(dimensionality),或者稱因數結構,決定最有效因數結構;② 驗證因數的階層關係;③ 評估量表的信度和效度。
- 6.探索性因數分析和驗證性因數分析的正確用法
從上述分析可以看出,探索性因數分析和驗證性 因數分析是因數分析的兩個不可分割的重要組成部分,在管理研究的實際應用中,兩者不能截然分開,只有結合運用,才能相得益彰,使研究更有深度。An-derson,J.C.,Gerbin,D.W 建議,在發展理論的過程中,首先應通過探索性因數分析建立模型,再用驗證提供了發析現模型以驗證和修正的概念和計算工具,其提供的結果為驗證性因數分析建立假設提供了重要的基礎和保證。兩種因數分析缺少任何一個,因數分析都將是不完整的 。一般來說,如果研究者沒有堅實的理論基礎支撐,有關觀測變數內部結構一般先用探索性因數分析,產生一個關於內部結構的理論,再在此基礎上用驗證性因數分析,這樣的做法是比較科學的,但這必須要用兩組分開的數據來做。如果研究者直接把探索性因數分析的結果放到統一數據的驗證性因數分析中,研究者就僅僅是擬合數據,而不是檢驗理論結構。如果樣本容量足夠大的話,可以將數據樣本隨機分成兩半,合理的做法就是先用一半數據做探索性因數分析,然後把分析取得的因數用在剩下的一半數據中做驗證性因數分析。如果驗證性因數分析的擬合效果非常差,那麼還必須用探索性因數分析來找出數據與模型之間的不一致。
在運用EFA法的時候,可以藉助統計軟體(如SPSS統計軟體或SAS統計軟體)來進行數據分析。
1、顧客滿意度調查。
2、服務質量調查。
3、個性測試。
4、形象調查。
5、市場劃分識別。
一個典型的EFA流程如下:
1、辨認、收集觀測變數。
2、獲得協方差矩陣(或Bravais-Pearson的相似繫數矩陣)
3、驗證將用於EFA的協方差矩陣(顯著性水平、反協方差矩陣、Bartlett球型測驗、反圖像協方差矩陣、KMO測度)。
5、發現因素和因素裝貨。 因素裝貨是相關係數在可變物(列在表裡)和因素(專欄之間在表裡)。
6、確定提取因數的個數(以Kaiser準則和Scree測試作為提取因數數目的準則)。
7、解釋提取的因數(例如,在上述例子中即解釋為“潛在因數”和“流程因數”)。
1、EFA法便於操作。
2、當調查問卷含有很多問題時,EFA法顯得非常有用。
3、EFA法既是其他因數分析工具的基礎(如計算因數得分的回歸分析),也方便與其他工具結合使用(如驗證性因數分析法)。
1、變數必須有區間尺度。
2、沉降數值至少要要變數總量的3倍。
對於主因數分析法來說,不存在異常值、等距值、線形值、多變數常態分配以及正交性等情況。
EFA在教育、心理領域存在的問題及建議[2]
- 1.樣本容量、觀測變數數目不夠
很多應用探索性因數分析的研究中,普遍存在的一個問題就是樣本容量及觀測變數數目太小。探索性因數分析中,一般要求樣本容量至少為100-200,當變數的公共方差較大時,則一定數目的小樣本也能確保因數負載的穩定性。國內學者曾做過一項調查,結果表明:1991-2000年國內兩種心理學期刊發表的運用因數分析的文章中,有近10%的文章研究樣本小於100,甚至有多達50%的文章沒有提供這一信息。而對於觀測變數的數目,一般認為,觀測變數與所提取的因數數目之比至少為4。很多研究者認為觀測變數的數目並不與被提取的因數數目相關聯,因為研究者事先並不知道會有多少個因數被提取出來,因此,無法依據被提取的因數個數對觀測變數的數目進行安排,但是,實際上很多研究者在因數分析前對所探討的觀測變數的因數結構已有了一定的預期。教育、心理領域中,存在著相當數量的研究並未達到這些標準。這或許是由於研究者對因數分析的要旨理解不深,但更有可能的是研究者對這類方法的細節重視不夠。
- 2.因數提取方法的誤用
探索性因數分析中最常用的提取因數的方法主要有兩種:主成分分析法和主軸因數法。決定選用何種方法時,一般有兩點值得考慮:一是因數分析的目的;二是對變數方差的瞭解程度。如果因數分析的目的是用最少的因數最大程度解釋原始數據的方差,則應用主成分分析法;若因數分析的主要目的是確定數據結構,則適合用主軸因數法。
實際上,雖然研究者大多認為主成分分析法和主軸因數法的結果差別不大,但是Widman提出,主軸因數法使用復相關係數的平方作為公共方差的初始估計值,通過不斷重覆,最後得到確定的公共方差的值,所以,這一過程比起主成分分析法,因數負載就更準確。因此,他建議研究者最好使用主軸因數法而不是主成分分析法。但實際研究中,研究者大量使用的是主成分分析法,導致這一結果的最直接可能就是SPSS軟體的預設設置即為主成分分析法。
- 3.因數數目的確定標準及因數旋轉中存在的問題
心理領域中,研究者運用的確定因數數目的標準大多是Kaiser法,即特征值≥1.0的標準。SPSS中,預設的提取因數方法就是Kaiser法,但實際這一標準僅僅適用於主成分分析法。Fabrigar等人提出,特征值≥1.0的標準通常會導致提取過多的因數。當因數提取過多時,因數的重要性就值得懷疑了。例如,假設有這樣的案例,分別從5個變數和10個變數中提取因數,在5個變數的情況下,特征值為1.0的因數將解釋變數總方差的20%(1/5,每個變數的方差估計為1,總方差即為5);相應地,在10個變數的情況下,同樣特征值為1.0的因數只能解釋總體方差的10%(1/10),顯然,當從大量變數中提取因數時,使用這樣的標准將導致所提取的因數只能解釋總方差很小的一部分。而碎石檢驗準則的主觀性太強,並且,在有些情況下,因數的特征值並沒有臨界點,因為因數特征值是以一種線性的方式逐漸下降的,所以這種情況是可能存在的,例如雙重負荷現象,因此,這種方法並沒有太強的使用價值。一般推薦使用Reise等人的平行分析方法來確定因數的數目。這種標準比起碎石檢驗標準來說,減少了研究者主觀因素的影響,結果也更客觀、真實、有效。
雖然正交旋轉能容易地解釋和表示因數分析的結果,但由於其規定因數間不相關,因此正交旋轉的結果往往並不符合實際。建議在探索性因數分析中使用斜交旋轉法,它既能很容易地解釋因數,同時也確保了因數間的簡單結構,更重要的是,允許因數間的相關也更符合現實。例如,在探索性因數分析中提取出了家庭受教育水平和家庭經濟收入這兩個因數,如果勉強進行正交旋轉,忽視兩因數間的相關,必然會對結果造成很大的影響,實際上這兩個因數都屬於家庭社會經濟地位的範疇,具有很高的相關,因此,進行斜交旋轉,允許兩因數間的相關,這樣得到的結果才更有說服力。實際研究中,研究者更多地還是採用了正交旋轉的方法,1991-2000年國內兩種心理學期刊發表的運用因數分析的文章中,高達60%的文章使用正交旋轉,而斜交旋轉只占到了6%。
- 4.因數值缺乏重覆驗證性
心理、教育領域中,研究者求解因數值時,絕大多數依賴的是SPSS,而該軟體所提供的求解因數值的方法最後求得的因數值是以一種加權的方式獲得的,這就使得這些因數值只適用於特定的樣本,缺乏重覆驗證性。
為了剋服這一缺陷,研究者建議使用一種簡單的非加權的方法,該方法首先鑒別出在某一因數上有較高負載的變數,然後將這些負載的值相加,從而得到能反映該因數的一種特定的因數值。使用這種方法研究者將失去變數在因數上的負載信息,但是,這樣得到的因數值與SPSS提供的各種權重的因數值具有較高相關,因此,使用這種簡單的策略獲得的因數值是很有意義的,它能剋服缺乏重覆驗證的缺陷。
當然,因數值本身實質上還是一種觀測變數,存在一定的隨機誤差,可以使用潛變數模型的方法來消除這些隨機誤差。
- 5.研究結果的呈現形式不規範
因數分析結果的呈現中,哪些信息需要研究者明確提供都有一定的規定,但教育、心理領域的應用中,很少有研究者能提供完整的信息。作為因數分析的基礎,相關矩陣是最根本的,研究者必須提供,否則,研究結果就缺乏重覆驗證的可能;另外,旋轉前後因數所解釋的方差、因數負載矩陣等信息也必須提供。
- 6.過於依賴SPSS,缺乏主動性
近年來因數分析應用中存在的最大的問題就是研究者過於依賴SPSS軟體,往往是電腦控制人腦,研究者喪失了主動性。前面所討論的因數分析實際應用中存在的一些主要問題,很大一部分是由SPSS本身所導致的。研究者進行因數分析時,大多脫離自己的實際研究,盲目地採用SPSS的各種預設設置,最後導致獲得的研究結果缺乏可信性,不符合實際研究的需要。例如,在連續性或非連續性(如二分類)變數的因數分析中,研究者應選擇適當的分析方法,不能無視觀測變數的類型,做統一的處理。對於由連續變數和非連續變數所組成的混合變數,研究者建議使用Tobit模型;分類順序變數則應該採用最大似然法(Maximum Likelihood)或加權最小二乘法(Weighted Least Squares)。為了剋服這種依賴性,有些研究者提出了採用其它的一些統計方法,逼迫研究者在進行統計分析時進行更多的思考,如CEFA軟體。
總之,實際研究中,研究者應根據各種情況,選用適合的統計策略,儘量剋服各種可能存在的問題,避免人腦受電腦的控制;另外,研究者自身加強統計知識的學習對於因數分析的正確運用也顯得至關重要。
評論(共13條)
為什麼看不懂? 看不懂啦~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~··· 都不舉個例子……
如果拿實際數據舉個例子會更容易懂
希望有瞭解的網友,幫忙貢獻哦~
值得學習,其中對SPSS預設設置的依賴現象說得比較好,確實不少研究者在用SPSS的時候,分不清楚各種演算法的優劣,比如主成分和最大似然,所以既然分不清,就乾脆用預設的了;有時候球形度檢驗沒結果或者結果不理想,也不管了,反正SPSS也能分析出結果來。這些都可能導致研究結果不准確。
Very helpful! if there is English version, it would be even more helpful!
Very helpful! if there is English version, it would be even more helpful! 很有幫助,謝謝
對於初哥來說,又懂得了一些分析方法選擇的技巧.