數據整理
出自 MBA智库百科(https://wiki.mbalib.com/)
數據整理(Data Cleansing)
目錄 |
數據整理是對調查、觀察、實驗等研究活動中所搜集到的資料進行檢驗、歸類編碼和數字編碼的過程。它是數據統計分析的基礎。
在二十世紀90年代中晚期,為了揭示一些隱含數據性質、趨勢和模式,很多商家開始探討把傳統的統計和人工智慧分析技術應用到大型資料庫的可行性問題,這些探討最終發展成為基於統計分析技術的正規數據整理工具。
從商業角度來看,從前未知的統計分析模式或趨勢的發現為企業提供了非常有價值的洞察力。數據整理技術能夠為企業對未來的發展具有一定的預見性。而OLTP僅僅能夠實現對過去的數據進行分析。數據整理技術可以分成3類:群集、分類和預測。
群集技術就是在無序的方式下集中信息。群集的一個例子就是對未知特點的群體商業客戶的分析,對這一例子輸入相關信息就可以很好的定義客戶的特點。
分類技術就是集中和指定object以預先確定事先定義好值的集合。集合通常用上面的技術來形成,可以舉一個例子就是把客戶按照他們的收入水平分成特定的銷售群體。
預測技術就是對某些特定的對象和目錄輸入已知值,並且把這些值應用到另一個類似集合中以確定期望值或結果。比如,一組戴頭盔和肩章的人是足球隊的,那麼我們也認為另一組帶頭盔和肩章的人也是足球隊的。
下麵的這幾條是現在常用的數據整理技術,每種技術都存在集中變異,而且可以應用到上面幾種技術中。
- 回退模型――這一技術把標準統計技術應用到數據中來證明或推翻事先的假設。一個例子就是線性回退,這種情況下變數是根據一定時間內標準或變化路徑來衡量。另一個例子是邏輯回退,這種情況下是根據以前相似事件發生的已知值來確定事件發生的可能性。
- 可視化――這一技術是建立多維圖形,讓數據分析人員確定數據的變化趨勢、模式以及相互關係。
- 相關性――這一技術用來確定數據集合內兩個或多個變數間的相互關係。
- 變化分析――這一統計技術是用來確定目標或已知變數與非獨立變數或可變數據集合間平均值的差異。
- 差異分析――這一分類技術用於確定或“區別”集合中的關係要素。
- 預測――預測技術是根據過去事件的已知值來確定未知結果
- 群集技術――群集技術是把數據分成很多組,並分析這些組的特性。
- 決策樹――決策樹是採用能用“if-then-else”語言表示的規則來分配數據。
- 神經網路――神經網路是用來模擬已知函數的數據模型,這一技術通過對數據進行迭代,同時在確定變化模式和趨勢上有更大的靈活性。
(3)預防法: 通稱管製圖法, 包括Pn管製圖、P管製圖、C管製圖、U管製圖、管製圖、X-Rs管製圖。
(1)原始數據之審核。
(2)分類項目之確定。
(3)施行歸類整理。
(4)列表。
(5)繪圖。
(1)現場收集數據, 應逐日、逐周和品管部門所收集的數據作核對, 以求整理真實且具有代表性的數據。
(2)數據整理, 改善前、後所具備的條件要一致, 如此所作的數據整理和比較才有意義。
(3)異常發生要採取措施, 一定要以整理後之數據為研究依據。
(4)使用經別人發表的次級數據應註意:
- a.原搜集數據之目的與數據之來源如何?
- b.原使用之單位是否與所欲研究者一致, 如不一致應如何調整始為合用?
- c.原來搜集所得之數字, 可靠程度如何? 如何靠當然可以取用, 不可靠時, 應尋求原因, 力謀解決。
- d.原來搜集方法如何? 有無重覆或遺漏之處?
- e.如根據兩種以上不同原始來源之數據, 使用之前應查明其內容互異之處, 尋求錯誤原因再定取捨。