全球专业中文经管百科,由121,994位网友共同编写而成,共计436,015个条目

數據變換

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

目錄

什麼是數據變換

  數據轉換是指將數據從一種表示形式變為另一種表現形式的過程。

數據變換的方法

  數據變換主要找到數據的特征表示,用維變換成轉換方法減少有效變數的數目或找到數據的不變式,包括規格化、歸約、切換、旋轉和投影等操作。

  規格化指將元組集按規格化條件進行合併,也就是屬性值量綱的歸一化處理。規格化條件定義了屬性的多個取值到給定虛擬值的對應關係。對於不同的數值屬性特點,一般可以分為取值連續和取值離散的數值規格化問題;歸約指將元組按語義層次糾構進行合併。語義層次結構定義了元組屬性值之間的IS—A語義關係。規格化和歸約能大量減少元組數量,提高計算效率。同時也提高了數據挖掘的起點。使得一個演算法能夠發現多層次的知識,適應不同應用的需要。 還可以用多維立方體(Data Cube)來組織數據,採用數據倉庫技術中的切換、旋轉和投影技術,把初始的數據集按照不同的層次、粒度和維度進行抽象和泛化,從而生成不同抽象級別上的數據集。

  數據轉換包含以下處理內容:

  (1)平滑處理。該過程幫助除去數據中的雜訊,主要技術方法有:Bin方法、聚類方法和回歸方法。

  (2)合計處理。對數據進行總結或合計(Aggregation)操作。例如:每天銷售額(數據)可以進行合計操作以獲得每月或每年的總額。這樣操作常用於構造數據立方體或對數據進行多細度的分析。

  (3)數據泛化處理(Gencralization)。所謂泛化處理就是用更抽象(更高層次)的概念來取代低層次或數據層的數據對象。例如;街道屬性,就可以泛化到更高層次的概念,如:城市國家。同樣對於數值型的屬性,如年齡屬性,就時以映射到吏高層次概念,加:年輕、中年和老年。

  (4)規格化。規格化就是將有關屬性數據技比例投射到特定小範圍之中。如將工資收入屬性值映射到-0.1-1.0。

本條目對我有幫助41
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

Tracy.

評論(共0條)

提示:評論內容為網友針對條目"數據變換"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

官方社群
下载APP

闽公网安备 35020302032707号