效度
出自 MBA智库百科(https://wiki.mbalib.com/)
效度(validity)
目錄 |
效度表示一項研究的真實性和準確性程度。又稱真確性。它與研究的目標密切相關,一項研究所得結果必須符合其目標才是有效的,因而效度也就是達到目標的程度。效度是相對的,僅針對特定目標而言,因此只有程度上的差別。
在測量方面,效度指一種測量手段能夠測得預期結果的程度。從統計學角度可把效度(rXY)定義為潛在真分數方差(垏)與實得分數方差(垑)的比率,即:。效度與信度的關係為:信 度是效度的必要條件,但不是充分條件。一個測量的效度要高,其信度必須高,而一個測量的信度高時,效度並不一定高。
考驗效度的方法很多,J.W.弗倫奇和W.B.米歇貝根據測驗目標把效度分為內容效度、構想效度和效標關聯效度,這種分類為美國心理學會在1974年發行的《教育與心理測驗的標準》一書所採納,成為通行的效度分類方法。
(1)內容效度指測驗題目對有關內容或行為範圍取樣的適當性。成就測驗和熟練測驗特別註重這種效度。例如,在成就測驗中,測驗題目是根據教學大綱和教材內容適當抽出的,內容效度就是判斷測驗題目(內容)是否符合它欲測的目標。由於這種衡量效度的方法必須針對課程的目標和內容,以系統的邏輯方法詳細分析題目的性能,故又稱課程效度或邏輯效度。確定內容效度的方法主要有兩種:①專家判斷,即由有關專家對測驗題目與原定內容範圍的符合性作出判斷;②統計分析,即以一組被試在取自同樣內容範圍的兩個獨立測驗上得分的相關作出估計。內容效度很容易與錶面效度相混淆,實際上兩者意義不同。錶面效度指從外表(如測驗的材料及用語、試題的印刷等)直觀地看,測驗題目與測量目標的一致程度,它與內容效度所指測驗在實際測量上的有效程度不同。從技術意義上嚴格地說,錶面效度不是效度,但為了取得被試的信任與合作,錶面效度也不可忽視。
(2)構想效度指測驗分數能夠說明心理學理論上的某種結構或特質的程度。它主要適用於心理測驗,其目的是以心理學的概念說明和分析測驗分數的意義,即從心理學的理論觀點對測驗的結果加以解釋和探討。在心理學上,所謂構想是指心理學理論所涉及的抽象而屬假設性的概念、特質或變數,如智力、焦慮、機械能力傾向、成就動機等,通常採用某種操作性定義並用測驗來測量。確定構想效度的邏輯和方法一般是:先從某一構想的理論出發,導出各項關於心理功能或行為的基本假設,據以設計和編製測驗,然後由果求因,以相關、實驗和因素分析等方法,審查測驗結果是否符合心理學上的理論觀點。
(3)效標關聯效度指測驗分數與效度標準的一致程度。效度標準簡稱效標,是足以反映測驗所欲測量或預測的特質的獨立量數,並作為估計效度的參照標準。測驗分數與效標的一致程度以二者的相關係數表示,這種相關係數稱為效度繫數。效度繫數越大,測驗的效度越高。由於用相關係數這種統計數值表示,這種效度又稱統計效度。效標關聯效度可分同時效度和預測效度。同時效度指測驗分數與當前的效標之間的相關程度,通常與心理特性的評估和診斷有關,常用的效標資料包括在校學業成績、教師評定的等級、臨床檢查、其他同性質測驗的結果等;預測效度指測驗分數與將來的效標之間的相關程度,它對人員的甄選、分類與安置工作等甚為重要,常用的效標資料包括專業訓練的成績和實際工作的成果等。它運用追蹤法對行為表現作長期觀察、考核和記錄,以累積所得的事實資料衡量測驗結果對將來成就的預測性。
測量的各種效度的區別在於各自強調的方面不同。一個測驗可以有多種效度,每種效度視使用者的具體目的而定,因此,一般不存在測驗的統一效度。但各種效度又是相互聯繫和補充的。內容效度和構想效度既是效標關聯效度的保證,又須得到它的支持。考察內容效度和效標關聯效度又有助於確定構想效度。
內在效度指實驗的自變數和因變數之間存在明確因果關係或相關關係的程度。它表明因變數的變化在多大程度上來自自變數——有效性。
外在效度指教育實驗研究結果的概括程度,它表明實驗結果的可推廣程度。
在心理學研究(特別是實驗研究)文獻中,常使用內在效度和外在效度的概念,這與測量的效度的含義有所不同。內在效度指研究的自變數和因變數之間存在明確關係的程度。如果一項研究經過分析表明,因變數的變化確系主試操縱的自變數的變化所引起,並不因其他變數的影響而變得模糊不清或複雜化,那麼這項研究就具有內在效度。
影響實驗研究的外在效度的因素主要有樣本 (往往是便利樣本而無法推及總體) 和環境 (人為製造而往往強化了實驗效果) 兩類。
影響內在效度的因素較多,可以用Stanley and Campbell 及其他人有關影響實驗研究內在效度的下述因素為參照:
(1)自我選擇(Selection,在單次調查中更容易存在);
(2)歷史(History,在重覆實驗或調查中均存在);
(3)成熟(Maturation,同2)
(4)重覆測試(Repeated Testing,固定樣本調查有此問題)
(5)測試工具影響(Instrumentation,調查問卷自然有其問題)
(6)回歸趨中(Regression to the Mean,調查同樣存在、追蹤調查尤其如此)
(7)實驗對象流失(Experimental Mortality、同樣適用於固定樣本)
(8)自我選擇和成熟的交互影響(Selection-Maturation Interaction、見1和3)
(9)實驗偏差(Experimenter Bias,在調查中也有調查環境的問題)
上述影響中,大部分與追蹤調查或固定樣本調查(前者可以用非固定樣本)有關;而與最常見的單次調查有關的是自我選擇,即調查對象往往將自己的預存行為和觀念(統稱 predispositions) 帶入他們對調查問題的回答,這是自然的,問題在於調查者無法測量各種預存行為和觀念之間的先後次序,從而無法確定它們之間的因果關係。如看電視與文化觀念之間,是因為看了西方電視節目然後有了現代化觀念、還是因為崇尚現代化觀念而看西方電視節目?再如網癮與社會冷漠之間,是因為上網太多而減弱了人際交往、還是因為缺乏人際交往(的能力或機會)而泡在網上?傳播研究中最常見的困惑往往就在於此。
當然,上述討論也給了我們指出了希望和方向:調查與實驗的結合,可以互補互助。在程式上,可以先做實驗以確定一對關係的內在效度,然後通過調查來驗證其外在效度;也可以倒過來,用實驗來驗證自己或前人已經做過的調查發現。也就是說,我們並不一定要同時做調查和實驗,可以在別人的調查基礎上做實驗或者實驗基礎上做調查。Iyengar and Kinder (1988) 用實驗方法做議程設置研究,開創了議程設置研究的一個新範式,其實驗結果則給議程設置研究中的”雞與蛋“懸案(即“先有媒體議程還是先有公眾議程”)作了最後的定論。
控制實驗 (control experiment) 與現場實驗 (field experiment) 的結合使用,也是提高實驗外在效度的一種有效方法,這裡主要解決的是控制實驗的環境問題;是否能否解決樣本的代表性問題則要看現場實驗的抽樣方法。我做過的美國總統電視辯論實驗 (Zhu, Milavsky & Biswas, 1994) 是控制實驗和現場實驗的結合,可惜我們用的實驗對象是非隨機抽取的大學生,所以只解決了環境問題。
固定樣本調查是解決自我選擇問題的良方,但是其容易受到其它幾種影響。所以需要在做最後一次固定樣本調查的同時,再另抽一個獨立樣本。其意義與調查與實驗的結合相似。
效度是研究設計必須考慮的問題。效度只是程度上的問題,是高與低的問題。效度不會全有或全無。內在效度是研究設計的基本要求,是研究質量的根本保證,是外在效度的先決條件。沒有內在效度便無所謂外在效度,因為一個研究本身不科學、不精確,內在效度很低,即使它再容易推廣、再現,外在效度再高,也不能正確解釋問題現象,也不可能有什麼實際意義。一般來說,內在效度越充分,結果的可推廣度越大,研究也越有價值。正如有位科學家的名言:知道原因的失敗,優於不知道原因的成功。
內在效度的目的在於排除另類的解釋,使研究變數關係純化、凸現,能經得起重覆、驗證。只有這樣,最終的研究結果才能被大家所接受。研究設計時,研究者本人應該確定自己研究的內在效度,在確保研究最基本的內在效度的基礎上,考慮研究的外在效度,即在保證研究科學性的前提下,考慮研究的可推廣性。
當然在強調研究內在效度的同時,也不應該忽視研究的外在效度。我們希望研究能構建新的理論,能貢獻新的知識,能為科研寶庫添磚加瓦。要使研究結果形成放之四海而皆準的理論,首先要看這個研究是否具有內在效度,其次考慮外在效度,即研究結果是否能類化到其它相似情境。
但是,內在效度高的研究不一定具有較高的外在效度,有時二者往往難以都得到充分滿足。有是確保了一種效度,就會削弱另一種效度。例如,為了控制性別差異可能對實驗結果的影響,只選取男生或女生作為被試,這個實驗的內在效度提高了,但實驗的外在效度卻受到損失,即實驗結果難以推廣到不同性別的群體中去,結論的普適性降低了。又如,在現場自然情境中進行一項實驗,雖然能較好地適應現實情境(具有較好的外在效度),也便於推廣運用,但受實驗條件限制,無法像實驗室實驗那樣充分控制無關變數,實驗的內在效度降低了。為此,在研究設計中要綜合考慮內在效度和外在效度的平衡,在保證實驗結果可靠性的基礎上,儘可能使研究獲得更大的推廣能力。
信度是效度的前提和基礎,效度是信度的目的和歸宿。
1.信度和效度之間相互聯繫
信度和效度都源自於真分數理論。影響信度和效度的因素可能來自於調查者及被調查者的主觀印象,也有可能來自於測量工具或環境等因素。任何社會調查中,無論缺乏信度還是效度的測量,都是沒有用的。
同時,信度是效度的必要條件,但不是充分條件。在測量過程中,如果收集的資料不可信、不可靠,那它肯定不能有效地說明研究的對象的真實情況,所以效度高,信度一定高。但除隨機誤差外,效度還受到系統誤差和其他變數的影響,所以信度高,效度也不一定高。
2.信度和效度相互制約
在實際社會調查中,研究者常常為了獲取效度而捨棄信度,或為了信度而犧牲效度。通常情況下,可信的操作化定義和測量具體化會削弱概念的豐富內涵;而允許概念由較多的變化或豐富的內涵時,往往又會使得具體情境中達成共識的機會降低,對信度造成影響。從某種程度上來說,信度和效度就像是社會研究中兩種不同取向的延續:定量的、結構化的技術以及定性的、表意式的方法。簡單來說,前者更加可信,而後者更加有效。對於社會研究者來說,這始終是一個無法避免的兩難局面。所以在測量過程中,研究者更應該根據概念所包含的各個維度,進而採取不同的測量方式,使得結果更接近真實情況。
比百度百科好多了