特征构建
组件介绍
**“特征构建”(Feature Constructor)**控件可用于构建新的特征属性。
**“特征构建”(Feature Constructor)**控件支持通过已有属性及相关表达式构建一个新的属性,支持构建的属性类型包括数值型、离散型和字符串型,支持的表达式为Python表达式,支持的函数为Python数学函数库表。
- 输入:
- data:数据集
- 输出:
- data:处理后的数据集
页面介绍
点击**“特征构建”(Feature Constructor)**控件查看参数配置页面,如下图所示:
获取属性信息的逻辑如下:
- 优先解析直接上游组件的输出结果,需要您先将上游组件运行成功
- 如1不满足,将会追溯源头的File、SQL Table等加载数据的属性信息
若属性信息获取错误,可通过重置控件重新获取。
参数选项
连续特征参数选项 对于连续型特征而言,只能通过构造一个Python表达式来计算特征值。
选项 | 说明 | 取值范围 | 样例值 |
---|---|---|---|
新建属性 | 新建一个连续型、离散型、字符串型的特征,也可 以复制一个已创建的属性 | 连续型 | 连续型 |
属性名 | 新建属性的名称 | 非空字符串 | feature1 |
表达式 | Python表达式,支持数学四则运算(+,-,*,/,//)、取余运算(%)、指数运算以及值的比较(<, >, <=, >=, ==, !=) | Python表达式 | abs(sepal_length) |
表达式选项 | 选择可以操作的属性以及可以使用的函数来构建表达式 | 属性:数据集属性 | |
表达式列表 | 已经构建的表达式,可以选择查看,也可点击右侧的“删除”按钮删除该属性及相应的表达式 | 已经构建的表达式列表 |
离散特征参数选项 对于离散型特征而言,还需对更多参数进行配置。点击“新建属性”按钮,并选择创建离散型特征,出现如下图所示的交互页面。用户除了需要对上图中显示的参数进行设置之外,还需列出离散特征的所有取值。
选项 | 说明 | 样例值 |
---|---|---|
离散值 | 离散特征的取值列表,使用逗号分隔各个取值,取值个数需与Python表达式的逻辑条件分支数保持一致以便在不同情形下将不同取值分配给该 离散特征。 |
对于离散型,Python表达式中的value值对应取值列表中的序号(0,1),而非取值(A, B)。
使用案例
在下图所示的案例中,使用**“加载文件”(File)控件加载数据,通过“查看数据”(Data Table)控件查看加载数据的信息,同时使用“特征构建”(Feature Constructor)控件构造新的属性,之后通过“查看数据”(Data Table)**控件查看处理后的数据集。
案例中采用 iris 数据集,构造了一个连续型特征【sepal_length_flag】和一个离散型特征【ceil_sepal_length】。案例中控件的配置以及执行结果如下图所示。