覆盖主要内容
版本: 6.1.0

独热编码

组件介绍

**“独热编码”(One Hot Encoder)**控件根据用户配置对指定的属性进行独热编码的操作。

One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。

One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。


  • 输入:
    • data:数据集
  • 输出:
    • data:处理后的数据集

页面介绍

点击**“独热编码”(One Hot Encoder)**控件查看参数配置页面,如下图所示:

警告

获取属性信息的逻辑如下:

  1. 优先解析直接上游组件的输出结果,需要您先将上游组件运行成功
  2. 如1不满足,将会追溯源头的File、SQL Table等加载数据的属性信息

若属性信息获取错误,可通过重置控件重新获取。

参数选项

选项说明取值范围样例值
编码属性选择

选择需要进行独热编码操作的属性

数据集属性sepal length

使用案例

在下图所示的案例中,使用**“加载文件”(File)控件加载数据,通过“查看数据”(Data Table)控件查看加载数据的信息,同时使用“独热编码”(One Hot Encoder)控件对数据集的【iris】属性进行独热编码,之后通过“查看数据”(Data Table)**控件查看处理后的数据集。

案例中加载 iris 数据集,选择【iris】属性进行编码。案例中控件的配置以及执行结果如下图所示。