全球专业中文经管百科,由121,994位网友共同编写而成,共计436,064个条目

數據污染

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

目錄

什麼是數據污染

  數據污染是指一種由人們故意的或偶然的行為造成的對原始數據的完整性和真實性的損害,是對真實數據的扭曲。

數據污染的來源

  數據污染問題產生的途徑很多,怎樣從源頭上避免這個問題非常重要。作為統計工作者和天天與數據打交道的人,我們經常是數據污染的受害者和污染數據的製造者。要避免由我們自身的原因造成的數據污染,首先就必須認識數據污染是怎麼產生的,只有真正弄清楚了數據污染的來源,才能想辦法去解決,從源頭上截斷它並最終解決它。

  統計工作是對數據進行搜集、整理、分析和解釋的一個過程。數據污染產生的首要來源是數據資料的搜集階段。數據污染問題不全部是由統計工作產生的,但是統計工作卻是產生數據污染的一個重要來源。統計工作是一項直接與數據打交道的工作,每天都會接觸大量的數據,不僅承擔著數據資料的搜集工作,還要對數據進行加工處理。尤其是在數據資料的搜集過程中,由於受到數據搜集方法和數據搜集過程的限制,會使得搜集到的信息與真實信息不相符,導致數據失真情況發生。每次的人口普查都要進行驗收調查和事後的抽樣調查,就是儘量避免數據污染影響調查的結果,儘量保證調查結果的真實性。

  數據污染問題貫穿於統計工作的各個階段,除數據的搜集階段外,在數據處理的每一個環節都有可能產生數據污染。有的是在數據錄入的過程中,操作不當引起錄入誤差。有的是沒有嚴格審核,有的把一些嚴重失實的數據混雜進來。一般來議一項完整的統計工作包括數據的搜集、整理、分析、歸納解釋等四個環節。這四個環節每一個都可能造成對數據的污染。比如說數據的整理階段,一個簡單的分組標誌選擇不合理,就會導致數據的污染產生。統計分組不能分得過細,也不能劃分得太粗,這一點在實際中有時很難把握。一個常見的例子是反映社會分配是否公平的基尼繫數的計算。如果按照收入進行分組計算人口百分比和收入百分比,不合理的分組會導致很大的計算誤差,從而使所反映的信息失真

  數據的污染有時還來自於對數據的不恰當處理,比如說已經擁有某個企業全年各個月份的產值和每個月的工人人數,要計算平均每個月的勞動生產率。這時候必須採用序時平均數的計算公式,分子是時期數列,分母是時點數列。如果採用的公式不當,同樣會導致數據的歪曲和污染,因此數據污染的產生來自於數據搜集和整理的各個環節,每一步都必須嚴格把握。

數據污染問題的特征

  數據污染問題的主要特征包括:數據污染問題會產生大量的反常值,數據污染問題具有極大的隱蔽性,數據污染問題具有擴散效應,數據污染問題具有關聯性等等。認識數據污染問題的特征是解決數據污染問題的重要保障。

  數據污染問題會產生大量反常值。雖然數據污染問題具有極大的隱蔽性,不過有時候卻很容易就能辨別出來,這是因為數據污染問題會導致大量的異常值。在統計分析中,我們經常稱異常值為野值,數據污染問題極容易產生這種野值。這時候只要用理性的眼光去分析問題,多一些生活常識,應該很容易就能識別。比如說,有一段時間全國大放衛星,有的地方說水稻畝產能達到一萬斤。這種類型的數據污染,因為異常值太明顯,實際上很容易辨別。這也表明數據的審核環節對於降低數據污染非常重要。

  數據污染問題具有極大的隱蔽性。數據污染不同於有些污染,比如水污染,我們能夠看得見,聞得著。數據污染往往具有隱蔽性,有時候很難立刻被髮現。在調查某種農作物產量的過程中,一般採用的是抽樣調查的方法。如果抽樣設計沒做好或者樣本的選擇不當,選擇了超出常規產量或比常規產量偏低的田塊,會造成極大的誤差。使得調查得來的數據與事實有較大出人,這樣的數據污染問題是由不合理的數據採集方法造成的,所以經常很難被髮現。

  數據污染問題會產生擴散效應。正如經濟學馬太效應一樣,數據污染問題也是一個污染逐步加深的過程。在進行數據的處理過程中,如果原始數據或早期數據受到污染,後續的分析會加重這種污染的程度。這就像謠言一樣,越傳越離譜。在我們現實的工作中,統計報表體系起著重要的作用。

  數據污染的結果可能導致一系列相關問題產生,會產生連鎖反應。數據污染問題的另外一個突出特點就是它和其他問題緊密相連,高度相關。一項數據受到污染,會導致一連串的嚴重後果。就像前面說的第一次經濟普查的結果,出人最大的部門是第三產業。正是因為這一個產業的統計誤差太大,導致整個國內生產總值全面進行了大幅調整,而且歷史數據全部都要進行相應的更新。如果是另外一些巨集觀經濟指標數據受到污染,受影響的可能就不是某一兩個部門,而是牽涉到整個產業的發展方向與國家巨集觀經濟政策的制定。

數據污染的影響

  數據本來的意義是客觀現實的真實反映,真實的數據能說明事物的各方面正確特征。比如說,一個人的身高,體重,血壓等等能說明一個人的健康狀況。如果這些數據受到污染,會歪曲事物的本來面目,降低數據的說服力,甚至可能得出錯誤的結論。

  經過污染的數據反映的是一種失實的信息,從而會影響到利用已知數據進行分析和決策的一系列相關部門的工作。污染問題的最基本後果就是造成原始數據失真。使得新的數據反映的信息是虛假信息,發揮不了該數據本身應具備的功能,導致錯誤結論的產生。有時還可能造成一定的經濟損失。影響正確的經濟政策的制定,禍及社會生活的方方面面。

  數據污染問題還會造成一定的經濟損失。在實際的工作中,有的數據被污染以後的危害是直接的,而有的則是間接的。造成的經濟損失也同樣,有的是直接經濟損失,有的則是間接經濟損失。例如某個企業,在進行調研的過程中,嚴重高估了某個地方的消費能力。因為他們衡量消費能力的最主要的依據是該地的人口數量,但是因為該地主要是礦區,而且礦產資源已經開發得差不多了。該企業投資興建的幾座商場從開業起就處於虧損狀態。另外一個企業,自己並沒有實地調研,而是參考別的企業提供的數據,盲目投資興建一座陶瓷加工廠。因為瓷土的成分與該企業的設備不相配套,導致生產出來的產品質量無法過關,最後企業只能宣佈破產,造成了嚴重的經濟損失。

參考文獻

  • 方國斌.《數據污染的特征與影響分析》[J].統計與咨詢.2007年05期
本條目對我有幫助11
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

Tracy,Lin.

評論(共0條)

提示:評論內容為網友針對條目"數據污染"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

官方社群
下载APP

闽公网安备 35020302032707号