數據預處理
出自 MBA智库百科(https://wiki.mbalib.com/)
目錄 |
數據預處理是指在主要的處理以前對數據進行的一些處理。數據預處理的主要過程有數據抽取(Extraction)、數據轉換(Transformation)和數據載入(Loading),也稱為ETL,這個過程是負責將分佈的、異構數據源中的數據抽取到臨時中間層進行轉換、集成等處理,最後載入列數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
資料庫作為企業信息的存儲樞紐,不僅為企業的日常業務提供各種各樣的數據服務,而巳也是企業經營決策的基礎,資料庫管理系統因此衍生出以事務型處理為主、以決策支持及聯機分析處理為主的兩種不同資料庫系統。20世紀70年代開始出現的關係資料庫(傳統資料庫)無法承擔將日常業務處理中所收集到的各種數據轉變為具有商業價值的信息。其原因是傳統資料庫的處理方式與決策支持中的數據路求不相稱,主要體現在以下幾個方面:
(1)系統響應問題。在傳統資料庫中,用戶對數據的操作時間短暫,能保證較高的系統響應時間,但決策分析問題的解決則需要遍曆數據庫中大部分的數據,消耗大量的系統資源,這是OLTP系統無法承擔的。
(2)數據需求問題。決策支持需要全面、正確的集成數據,這包括內部各部門的有關數據和企業外部的、甚至競爭對手的相關數據,但是在傳統資料庫中只存儲了本部門的事務處理數據。
(3)決策問題相關的集成數據。若每次用戶決策分析都需要進行一次數據的集成,將極大地降低系統運行的效率。
(4)操作問題。傳統資料庫中的用戶只能使用系統所提供的有限參數進行數據操作,訪問受到很大的限制,而決策分析人員希望以專業用戶的身份,用各種工具對數據進行多種形式的操作,結果以商務智能的方式表達出來。
現代的商務智能系統的目的就是要通過數據分析來輔助用戶決策,這些數據的來源、格式不一樣,影響了系統實施,提高了數據整合的難度。那麼,對於傳統的資料庫就需要有一個全面的解決方案,來解決數據的一致性與集成化問題,可以使用戶能夠從已有傳統環境與平臺中採集數據,並利用一個單一解決方案對其進行高效的轉換。
在構建商務智能系統時,如何正確有效地將分散在各個不同數據源中的信息整合到系統中成為整個系統成敗的關鍵,直接影響到系統的運行效率和最終結果。數據預處理正是解決這一問題的有力方案。數據預處理包含3方面的內容:一是“抽取(Extraction)”,指的是將數據從各種原始的業務系統中讀取出來,這是所有工作的前提;二是“轉換(Transformation)”,指按照預先設汁好的規則將抽取的數據進行轉換,使本來異構的數據格式能統一起來;三是“載入(Loading)”,將轉換完的數據按計劃導入到數據倉庫中。
數據預處理就是指把數據從數據源依照一定的規則裝入到數據倉庫的過程,這個過程的實質就是符合特定規則的數據流動過程,從不同異構數據源流向統一的目標數據。數據倉庫的構建中,數據預處理是關鍵的一環,它是整個數據倉序的生命線.一直貫穿於項目始終。如果將數據倉庫比喻為高樓,那麼數據預處理就是地基,建億數據倉庫的首要問題,要考慮從不同類型的源系統中提取數據以及要將數據存儲在一個相當規模的目標資料庫中,這個過程就是數據預處理過程。
(1)數據抽取
數據拙取部分是將數據從各個不同的數據源抽取到ODS(Operational Data Store,操作型數據存儲)中,在抽取的過程中需要挑選不同的抽取方法,儘可能地提高數據預處理的遠行效率。如果已經並清楚了數據是從幾個業務系統中來,各個業務系統的資料庫伺服器遠行什麼DBMS,是否存在手工數據,手工數據量有多大,是否存在非結構化的數據等相關的信息,就可以根據這些信息開始進行數據抽取部分的設計。
(2)數據轉換
數據轉換部分實際就是利用有關技術,如數理統計、數據挖掘或預定義的數據轉換規則將源數據轉化成滿足數據質量要求的數據。數據預處理中,花費時間最長的就是數據的轉換部分,一般情況下這部分的上作量要占整個數據預處理的2/3。在大多數情況下,數據轉換是將數據彙總,以位它更布意義。在轉換結構中,確保能找出一種最好的方法保證數據從傳統的數據存儲器到數據倉庫的同步。
(3)數據載入
數據載入部分是將轉換後的數據載入到數據倉庫中。數據載入策略包括載入周期和數據追加策略,數據載入周期要綜合考慮經營分析需求和系統訓載的代價,對不同業務系統的數據採用不同的載入周期,但必須保持間一時間業務數據的完整件和一致性。