数据污染
出自 MBA智库百科(https://wiki.mbalib.com/)
目录 |
数据污染是指一种由人们故意的或偶然的行为造成的对原始数据的完整性和真实性的损害,是对真实数据的扭曲。
数据污染问题产生的途径很多,怎样从源头上避免这个问题非常重要。作为统计工作者和天天与数据打交道的人,我们经常是数据污染的受害者和污染数据的制造者。要避免由我们自身的原因造成的数据污染,首先就必须认识数据污染是怎么产生的,只有真正弄清楚了数据污染的来源,才能想办法去解决,从源头上截断它并最终解决它。
统计工作是对数据进行搜集、整理、分析和解释的一个过程。数据污染产生的首要来源是数据资料的搜集阶段。数据污染问题不全部是由统计工作产生的,但是统计工作却是产生数据污染的一个重要来源。统计工作是一项直接与数据打交道的工作,每天都会接触大量的数据,不仅承担着数据资料的搜集工作,还要对数据进行加工处理。尤其是在数据资料的搜集过程中,由于受到数据搜集方法和数据搜集过程的限制,会使得搜集到的信息与真实信息不相符,导致数据失真情况发生。每次的人口普查都要进行验收调查和事后的抽样调查,就是尽量避免数据污染影响调查的结果,尽量保证调查结果的真实性。
数据污染问题贯穿于统计工作的各个阶段,除数据的搜集阶段外,在数据处理的每一个环节都有可能产生数据污染。有的是在数据录入的过程中,操作不当引起录入误差。有的是没有严格审核,有的把一些严重失实的数据混杂进来。一般来议一项完整的统计工作包括数据的搜集、整理、分析、归纳解释等四个环节。这四个环节每一个都可能造成对数据的污染。比如说数据的整理阶段,一个简单的分组标志选择不合理,就会导致数据的污染产生。统计分组不能分得过细,也不能划分得太粗,这一点在实际中有时很难把握。一个常见的例子是反映社会分配是否公平的基尼系数的计算。如果按照收入进行分组计算人口百分比和收入百分比,不合理的分组会导致很大的计算误差,从而使所反映的信息失真。
数据的污染有时还来自于对数据的不恰当处理,比如说已经拥有某个企业全年各个月份的产值和每个月的工人人数,要计算平均每个月的劳动生产率。这时候必须采用序时平均数的计算公式,分子是时期数列,分母是时点数列。如果采用的公式不当,同样会导致数据的歪曲和污染,因此数据污染的产生来自于数据搜集和整理的各个环节,每一步都必须严格把握。
数据污染问题的主要特征包括:数据污染问题会产生大量的反常值,数据污染问题具有极大的隐蔽性,数据污染问题具有扩散效应,数据污染问题具有关联性等等。认识数据污染问题的特征是解决数据污染问题的重要保障。
数据污染问题会产生大量反常值。虽然数据污染问题具有极大的隐蔽性,不过有时候却很容易就能辨别出来,这是因为数据污染问题会导致大量的异常值。在统计分析中,我们经常称异常值为野值,数据污染问题极容易产生这种野值。这时候只要用理性的眼光去分析问题,多一些生活常识,应该很容易就能识别。比如说,有一段时间全国大放卫星,有的地方说水稻亩产能达到一万斤。这种类型的数据污染,因为异常值太明显,实际上很容易辨别。这也表明数据的审核环节对于降低数据污染非常重要。
数据污染问题具有极大的隐蔽性。数据污染不同于有些污染,比如水污染,我们能够看得见,闻得着。数据污染往往具有隐蔽性,有时候很难立刻被发现。在调查某种农作物产量的过程中,一般采用的是抽样调查的方法。如果抽样设计没做好或者样本的选择不当,选择了超出常规产量或比常规产量偏低的田块,会造成极大的误差。使得调查得来的数据与事实有较大出人,这样的数据污染问题是由不合理的数据采集方法造成的,所以经常很难被发现。
数据污染问题会产生扩散效应。正如经济学的马太效应一样,数据污染问题也是一个污染逐步加深的过程。在进行数据的处理过程中,如果原始数据或早期数据受到污染,后续的分析会加重这种污染的程度。这就像谣言一样,越传越离谱。在我们现实的工作中,统计报表体系起着重要的作用。
数据污染的结果可能导致一系列相关问题产生,会产生连锁反应。数据污染问题的另外一个突出特点就是它和其他问题紧密相连,高度相关。一项数据受到污染,会导致一连串的严重后果。就像前面说的第一次经济普查的结果,出人最大的部门是第三产业。正是因为这一个产业的统计误差太大,导致整个国内生产总值全面进行了大幅调整,而且历史数据全部都要进行相应的更新。如果是另外一些宏观经济指标数据受到污染,受影响的可能就不是某一两个部门,而是牵涉到整个产业的发展方向与国家宏观经济政策的制定。
数据本来的意义是客观现实的真实反映,真实的数据能说明事物的各方面正确特征。比如说,一个人的身高,体重,血压等等能说明一个人的健康状况。如果这些数据受到污染,会歪曲事物的本来面目,降低数据的说服力,甚至可能得出错误的结论。
经过污染的数据反映的是一种失实的信息,从而会影响到利用已知数据进行分析和决策的一系列相关部门的工作。污染问题的最基本后果就是造成原始数据失真。使得新的数据反映的信息是虚假信息,发挥不了该数据本身应具备的功能,导致错误结论的产生。有时还可能造成一定的经济损失。影响正确的经济政策的制定,祸及社会生活的方方面面。
数据污染问题还会造成一定的经济损失。在实际的工作中,有的数据被污染以后的危害是直接的,而有的则是间接的。造成的经济损失也同样,有的是直接经济损失,有的则是间接经济损失。例如某个企业,在进行调研的过程中,严重高估了某个地方的消费能力。因为他们衡量消费能力的最主要的依据是该地的人口数量,但是因为该地主要是矿区,而且矿产资源已经开发得差不多了。该企业投资兴建的几座商场从开业起就处于亏损状态。另外一个企业,自己并没有实地调研,而是参考别的企业提供的数据,盲目投资兴建一座陶瓷加工厂。因为瓷土的成分与该企业的设备不相配套,导致生产出来的产品质量无法过关,最后企业只能宣布破产,造成了严重的经济损失。
- 方国斌.《数据污染的特征与影响分析》[J].统计与咨询.2007年05期