覆盖主要内容
版本: 6.1.0

离散化

组件介绍

**“离散化”(Discretize)**控件用于对数据中的数值型属性进行离散化操作。

**“离散化”(Discretize)**控件将数据中的数值型属性转换位离散型属性,离散化操作一般是在数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。


  • 输入:
    • data:数据集
  • 输出:
    • data:处理后的数据集

页面介绍

点击**“离散化”(Discretize)**控件查看参数配置页面,如下图所示:

点击**“详细配置”**按钮,对数据集的连续型属性进行详细配置:

警告

获取属性信息的逻辑如下:

  1. 优先解析直接上游组件的输出结果,需要您先将上游组件运行成功
  2. 如1不满足,将会追溯源头的File、SQL Table等加载数据的属性信息

若属性信息获取错误,可通过重置控件重新获取。

参数选项

选项说明取值范围样例值
默认设置

Discretize 控件提供了以下几种基本的离散方式(点击后将应用于所有连续型属性上):
  等频划分:将属性分割成给定数量的间隔,以使得每个间隔包含数量大约相同的实例。
  等宽划分:均匀分割最小和最大观测值之间的范围,间隔数用户可以手动设置。
  Entropy-MDL:由Fayyad和Irani发明的自上而下的离散化方法,递归地将属性切割为最大化信息增益,直到增益低于切割的最小描述长度。
  用户还可以选择不对属性做任何处理(保留原始数据值)或者删除连续型属性(移除数值变量)。

等频划分
等宽划分
Entropy-MDL
保留原始数据值
移除数值变量

等频划分
单属性设置

Discretize 控件也提供了对属性的单独处理。
左侧显示了数据集中的连续型属性,当用户想要针对某个属性设定特定的处理方式时,用户可以选中某些属性,在右侧方法中选择需要的处理方式即可。

默认
等频划分
等宽划分
Entropy-MDL
保留原始数据值
移除数值变量

默认

使用案例

在下图所示的案例中,使用**“加载文件”(File)控件加载数据,通过“查看数据”(Data Table)控件查看加载数据的信息,同时使用“离散化”(Discretize)控件对数据集进行离散化处理,之后通过“查看数据”(Data Table)**控件查看处理后的数据集。

案例中加载 iris 数据集,在进行离散化处理时,默认使用“等宽划分”,“详细配置”时,对【sepal length】属性采用“保留原始数值”的操作,对【sepal width】采用“Entropy-MDL”的方式进行离散化。案例中控件的配置以及执行结果如下图所示。