抽樣框誤差
出自 MBA智库百科(https://wiki.mbalib.com/)
目錄 |
抽樣框是指對可以選擇作為樣本的總體單位列出名冊或排序編號,以確定總體的抽樣範圍和結構。
所謂抽樣框誤差,是指目標總體和抽樣總體不一致時產生的誤差。理想的抽樣框需要滿足以下要求,就是所有的抽樣單位必須覆蓋目標總體,對於較為簡單的單階段抽樣,抽樣框要求每個目標總體單位都應該對應著一個抽樣單位,抽樣單位必須相互獨立,互不重疊,並且唯一地與目標總體相連接。如果目標總體與抽樣總體不一致時就產生了抽樣框誤差。
抽樣框誤差在簡單抽樣框和複雜抽樣框中都會出現。所謂的簡單抽樣框主要適用於簡單隨機抽樣,就是抽樣框沒有任何輔助信息,只是對樣框內的數據按原樣隨機排列。複雜抽樣框指抽樣框附加了一些輔助信息。這些信息將使抽樣更符合總體的特征值。舉一個簡單的例子,比如要抽查上海市所有零售企業的銷售狀況,假如事先知道上海市零售企業規模的分佈情況,就可以根據這個分佈比例採用分層抽樣的方法。如果分佈比例是正確的,那麼分層抽樣的精度要高於簡單隨機抽樣,而如果比例不正確,那麼誤差更大。這裡的分佈比例就是所謂的輔助信息。
抽樣框誤差有五個來源,分別是:
1、不能覆蓋目標總體單位
所謂的不能覆蓋目標總體單位,指的是目標總體單位沒有出現在抽樣樣本中,那麼他們就不可能在隨後的抽樣過程中被選中,導致數據丟失。
2、與不能覆蓋相對應的就是,抽樣樣本包含了非目標總體單位
包含非目標總體單位主要是由於目標總體的變化產生的誤差。相對於不能覆蓋的誤差而言,包含非目標總體單位誤差比較容易被髮現。
3、複合聯接
複合聯接的意思就是一個目標總體單位聯接著一個以上的抽樣單位。比如,有的家庭擁有兩個住所、兩個地址,那麼他們被選中的概率就是一般家庭的兩倍。複合聯接的對象如果具有某些特征值就會使樣本失真,導致均值發生偏差。
4、抽樣框老化
統計數據有很強的即時性,隨著時間的推移,抽樣框必須更新,否則就會老化不符合實際情況使抽樣不精確。最典型的例子,就是隨著城市建設的大規模展開,許多地區已經被改造,地址發生了完全的變化,如果依舊按以前的抽樣框去抽樣,那麼精度就會非常難以控制。
5、輔助信息不正確
前面四種抽樣框誤差會發生在簡單抽樣框也會發生在複雜抽樣框,而輔助信息不正確只可能出現在複雜抽樣框內。一般,較大規模和較複雜的抽樣必須採用複雜抽樣框,就是必須要有輔助信息。如果輔助信息不准確,就會導致複雜抽樣的效果反而不及簡單隨機抽樣。
建立一個準確、及時的抽樣框是減少誤差的基礎,在現實生活中,有缺陷的抽樣框並非不能用,關鍵看如何去彌補和彌補的成本有多高。
減少抽樣框誤差一般有以下一些方法:
1、聯接丟失單位
這種方法主要適用於不能覆蓋總體單位而引起的誤差。所謂聯接丟失單位的意思就是把抽樣樣本丟失的個體和抽樣樣本中某個值相聯結,比如說上海最近興建了某幾個小區,而事先在抽樣的過程中並不知曉,那麼可以把這幾個小區與最相近小區相聯接,如果最近小區被抽中,那麼就可以視為新建小區被抽中並接受相應的調查。聯接丟失單位最重要的基礎是在抽樣的過程中能發現被丟失的單位,如果不能發現,那麼聯接丟失單位也就無從談起。
2、採用輔助樣框
有許多時候,一個樣框不能含蓋抽樣的總體,比如進行商業調查時,商委系統的名錄一般只包括國有和集體企業的情況,而對於一般私營或有外資介入經營的商業網點的情況不太瞭解,那麼如果對全上海的商業網點進行調查,就必須要採用輔助樣框,即在國有集體企業的樣框之外,增加一個私營和外資商業網點的樣框,把兩個樣框合在一起進行抽樣。輔助樣框最大的問題是抽樣目標會重疊,他可能既隸屬於主樣框又隸屬於輔助樣框,該目標總體被選中的可能性就增大。
3、及時更新樣框
這是解決樣框老化和輔助信息不准確最有效的方法。當然樣框更新需要較大的資金投入。所以一般樣框更新可以採用分批更新,一年更新樣框的20%,分5年更新樣框的方式。
4、對複合聯接的處理
複合連接一般又可以分為兩種情況:
1)所謂的多對一,就是一個目標單位與一個以上的抽樣單位相連接,一對多的情況則相反。多對一的錯誤在抽樣調查中對數據精確性的影響更大,所以這裡主要討論如何解決多對一的複合聯接誤差。最簡單的方式就是利用複合聯接的調查數據對目標總體單位數以及目標總體總量和均值進行估計。
2)確定唯一的聯接規則,讓多個抽樣單位只有一個進入到抽樣總體中,比如對擁有多戶地址的家庭可以確定其最近一次居住的地址為抽樣對象。