无监督离散化
用手机看条目
出自 MBA智库百科(https://wiki.mbalib.com/)
无监督离散化(Unsupervised Discretization)
目录 |
[编辑]
无监督离散化是指在离散化过程中不使用类信息的方法。无监督离散化方法在离散过程中不考虑类别属性,其输入数据集仅含有待离散化属性的值。早期的离散化方法如等频率、等宽度离散化等主要是无监督的离散化。
[编辑]
无监督离散化过程划分一个连续变量时,仅考虑这个属性数据的分布特性,而有监督的离散化过程,除此之外还需考虑每一个对象的分类信息。常用的无监督的离散化过程包括:
①等宽区间法;
②等频区间法;
③串分析方法。
有监督的离散化是为了使被离散化属性与分类属性之间的某种关系测度最大化,例如可利用熵测度或信息增益测度(Quinlan,1993;Catlett,1991;Fayyad&Irani,1993)。无监督的离散化算法运行速度快,而有监督的离散化算法由于考虑了分类标识,因而可产生精度较高的离散树。
[编辑]