虛擬變數陷阱
出自 MBA智库百科(https://wiki.mbalib.com/)
虛擬變數陷阱(Dummy Variable Regression)
目錄 |
虛擬變數陷阱是指一般在引入虛擬變數時要求如果有m個定性變數,在模型中引入m-1個虛擬變數。否則,如果引入m個虛擬變數,就會導致模型解釋變數間出現完全共線性的情況。我們一般稱由於引入虛擬變數個數與定性因素個數相同出現的模型無法估計的問題,稱為"虛擬變數陷阱"
自變數中包含了過多的虛擬變數造成的錯誤;當模型中既有整體截距又對每一組都設有一個虛擬變數時,該陷阱就產生了。或者說,由於引入虛擬變數帶來的完全共線性現象就是虛擬變數陷阱。
比如“性別”含男性和女性兩個類別,所以當性別作為解釋變數時,應向模型引入一個虛擬變數。取值方式是:D=1(男性)、D=0(女性)或D=0(男性)、D=1(女性)而當“學歷”含有四個類別時,即大學、中學、小學、無學歷。當“學歷”作為解釋變數時,應向模型引入三個虛擬變數。一種取值方式是:1(大學)1(中學)1(小學)D1=0(非大學)D2=0(非中學)D3=0(非小學)所謂的“虛擬變數陷阱”就是當一個定性變數含有m個類別時,模型引入m個虛擬變數,造成了虛擬變數之間產生完全多重共線性,無法估計回歸參數。在m-1個虛擬變數中,虛擬變數可以同時取值為0,但不能全部取值為1。
當定性變數含有m個類別時,不能把虛擬變數的值設為D=0(第一類)D=1(二類)D=2(三類)等等。
若對兩個相互排斥的屬性 “居民屬性”,仍然 引入個虛擬變數,則有則模型為對任一家庭都有:即產生完全共線,陷入了“虛擬變數陷阱”。“虛擬變數陷阱”的實質是:完全多重共線性。
本条目由以下用户参与贡献
寒曦.評論(共6條)
等於沒說,為什麼共線這才是關鍵
以上面學歷來說,如果用ABCD分成四類來表示,當其中三項確定時,第四項就確定了。舉例來說,不是大學中學小學,所以ABC都是0,這樣不就可以確定D是1了嗎?可以想成這樣彼此間就不是線性獨立,在做回歸預測時這種係數的矩陣不存在反矩陣,當然就無法計算囉
也想知道,望有大神路過來說說
一共只有M個選擇,1=A+B+……+M,那麼M=1-A-B-……M-1。M能夠被其他M-1個變數所表示,這還不是共線?



等於沒說,為什麼共線這才是關鍵