抽样框误差
出自 MBA智库百科(https://wiki.mbalib.com/)
目录 |
抽样框是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。
所谓抽样框误差,是指目标总体和抽样总体不一致时产生的误差。理想的抽样框需要满足以下要求,就是所有的抽样单位必须覆盖目标总体,对于较为简单的单阶段抽样,抽样框要求每个目标总体单位都应该对应着一个抽样单位,抽样单位必须相互独立,互不重叠,并且唯一地与目标总体相连接。如果目标总体与抽样总体不一致时就产生了抽样框误差。
抽样框误差在简单抽样框和复杂抽样框中都会出现。所谓的简单抽样框主要适用于简单随机抽样,就是抽样框没有任何辅助信息,只是对样框内的数据按原样随机排列。复杂抽样框指抽样框附加了一些辅助信息。这些信息将使抽样更符合总体的特征值。举一个简单的例子,比如要抽查上海市所有零售企业的销售状况,假如事先知道上海市零售企业规模的分布情况,就可以根据这个分布比例采用分层抽样的方法。如果分布比例是正确的,那么分层抽样的精度要高于简单随机抽样,而如果比例不正确,那么误差更大。这里的分布比例就是所谓的辅助信息。
抽样框误差有五个来源,分别是:
1、不能覆盖目标总体单位
所谓的不能覆盖目标总体单位,指的是目标总体单位没有出现在抽样样本中,那么他们就不可能在随后的抽样过程中被选中,导致数据丢失。
2、与不能覆盖相对应的就是,抽样样本包含了非目标总体单位
包含非目标总体单位主要是由于目标总体的变化产生的误差。相对于不能覆盖的误差而言,包含非目标总体单位误差比较容易被发现。
3、复合联接
复合联接的意思就是一个目标总体单位联接着一个以上的抽样单位。比如,有的家庭拥有两个住所、两个地址,那么他们被选中的概率就是一般家庭的两倍。复合联接的对象如果具有某些特征值就会使样本失真,导致均值发生偏差。
4、抽样框老化
统计数据有很强的即时性,随着时间的推移,抽样框必须更新,否则就会老化不符合实际情况使抽样不精确。最典型的例子,就是随着城市建设的大规模展开,许多地区已经被改造,地址发生了完全的变化,如果依旧按以前的抽样框去抽样,那么精度就会非常难以控制。
5、辅助信息不正确
前面四种抽样框误差会发生在简单抽样框也会发生在复杂抽样框,而辅助信息不正确只可能出现在复杂抽样框内。一般,较大规模和较复杂的抽样必须采用复杂抽样框,就是必须要有辅助信息。如果辅助信息不准确,就会导致复杂抽样的效果反而不及简单随机抽样。
建立一个准确、及时的抽样框是减少误差的基础,在现实生活中,有缺陷的抽样框并非不能用,关键看如何去弥补和弥补的成本有多高。
减少抽样框误差一般有以下一些方法:
1、联接丢失单位
这种方法主要适用于不能覆盖总体单位而引起的误差。所谓联接丢失单位的意思就是把抽样样本丢失的个体和抽样样本中某个值相联结,比如说上海最近兴建了某几个小区,而事先在抽样的过程中并不知晓,那么可以把这几个小区与最相近小区相联接,如果最近小区被抽中,那么就可以视为新建小区被抽中并接受相应的调查。联接丢失单位最重要的基础是在抽样的过程中能发现被丢失的单位,如果不能发现,那么联接丢失单位也就无从谈起。
2、采用辅助样框
有许多时候,一个样框不能含盖抽样的总体,比如进行商业调查时,商委系统的名录一般只包括国有和集体企业的情况,而对于一般私营或有外资介入经营的商业网点的情况不太了解,那么如果对全上海的商业网点进行调查,就必须要采用辅助样框,即在国有集体企业的样框之外,增加一个私营和外资商业网点的样框,把两个样框合在一起进行抽样。辅助样框最大的问题是抽样目标会重叠,他可能既隶属于主样框又隶属于辅助样框,该目标总体被选中的可能性就增大。
3、及时更新样框
这是解决样框老化和辅助信息不准确最有效的方法。当然样框更新需要较大的资金投入。所以一般样框更新可以采用分批更新,一年更新样框的20%,分5年更新样框的方式。
4、对复合联接的处理
复合连接一般又可以分为两种情况:
1)所谓的多对一,就是一个目标单位与一个以上的抽样单位相连接,一对多的情况则相反。多对一的错误在抽样调查中对数据精确性的影响更大,所以这里主要讨论如何解决多对一的复合联接误差。最简单的方式就是利用复合联接的调查数据对目标总体单位数以及目标总体总量和均值进行估计。
2)确定唯一的联接规则,让多个抽样单位只有一个进入到抽样总体中,比如对拥有多户地址的家庭可以确定其最近一次居住的地址为抽样对象。