数据变换

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

目录

什么是数据变换

  数据转换是指将数据从一种表示形式变为另一种表现形式的过程。

数据变换的方法

  数据变换主要找到数据的特征表示,用维变换成转换方法减少有效变量的数目或找到数据的不变式,包括规格化、归约、切换、旋转和投影等操作。

  规格化指将元组集按规格化条件进行合并,也就是属性值量纲的归一化处理。规格化条件定义了属性的多个取值到给定虚拟值的对应关系。对于不同的数值属性特点,一般可以分为取值连续和取值离散的数值规格化问题;归约指将元组按语义层次纠构进行合并。语义层次结构定义了元组属性值之间的IS—A语义关系。规格化和归约能大量减少元组数量,提高计算效率。同时也提高了数据挖掘的起点。使得一个算法能够发现多层次的知识,适应不同应用的需要。 还可以用多维立方体(Data Cube)来组织数据,采用数据仓库技术中的切换、旋转和投影技术,把初始的数据集按照不同的层次、粒度和维度进行抽象和泛化,从而生成不同抽象级别上的数据集。

  数据转换包含以下处理内容:

  (1)平滑处理。该过程帮助除去数据中的噪声,主要技术方法有:Bin方法、聚类方法和回归方法。

  (2)合计处理。对数据进行总结或合计(Aggregation)操作。例如:每天销售额(数据)可以进行合计操作以获得每月或每年的总额。这样操作常用于构造数据立方体或对数据进行多细度的分析。

  (3)数据泛化处理(Gencralization)。所谓泛化处理就是用更抽象(更高层次)的概念来取代低层次或数据层的数据对象。例如;街道属性,就可以泛化到更高层次的概念,如:城市国家。同样对于数值型的属性,如年龄属性,就时以映射到吏高层次概念,加:年轻、中年和老年。

  (4)规格化。规格化就是将有关属性数据技比例投射到特定小范围之中。如将工资收入属性值映射到-0.1-1.0。

本条目对我有帮助31
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您认为本条目还有待完善,需要补充新内容或修改错误内容,请编辑条目投诉举报

本条目由以下用户参与贡献

Tracy.

评论(共0条)

提示:评论内容为网友针对条目"数据变换"展开的讨论,与本站观点立场无关。

发表评论请文明上网,理性发言并遵守有关规定。

打开APP

以上内容根据网友推荐自动排序生成

闽公网安备 35020302032707号