數據變換
出自 MBA智库百科(https://wiki.mbalib.com/)
目錄 |
數據轉換是指將數據從一種表示形式變為另一種表現形式的過程。
數據變換主要找到數據的特征表示,用維變換成轉換方法減少有效變數的數目或找到數據的不變式,包括規格化、歸約、切換、旋轉和投影等操作。
規格化指將元組集按規格化條件進行合併,也就是屬性值量綱的歸一化處理。規格化條件定義了屬性的多個取值到給定虛擬值的對應關係。對於不同的數值屬性特點,一般可以分為取值連續和取值離散的數值規格化問題;歸約指將元組按語義層次糾構進行合併。語義層次結構定義了元組屬性值之間的IS—A語義關係。規格化和歸約能大量減少元組數量,提高計算效率。同時也提高了數據挖掘的起點。使得一個演算法能夠發現多層次的知識,適應不同應用的需要。 還可以用多維立方體(Data Cube)來組織數據,採用數據倉庫技術中的切換、旋轉和投影技術,把初始的數據集按照不同的層次、粒度和維度進行抽象和泛化,從而生成不同抽象級別上的數據集。
數據轉換包含以下處理內容:
(1)平滑處理。該過程幫助除去數據中的雜訊,主要技術方法有:Bin方法、聚類方法和回歸方法。
(2)合計處理。對數據進行總結或合計(Aggregation)操作。例如:每天銷售額(數據)可以進行合計操作以獲得每月或每年的總額。這樣操作常用於構造數據立方體或對數據進行多細度的分析。
(3)數據泛化處理(Gencralization)。所謂泛化處理就是用更抽象(更高層次)的概念來取代低層次或數據層的數據對象。例如;街道屬性,就可以泛化到更高層次的概念,如:城市、國家。同樣對於數值型的屬性,如年齡屬性,就時以映射到吏高層次概念,加:年輕、中年和老年。
(4)規格化。規格化就是將有關屬性數據技比例投射到特定小範圍之中。如將工資收入屬性值映射到-0.1-1.0。