覆盖主要内容
版本: 6.1.0

属性排名

组件介绍

**“属性排名”(Rank)**控件可计算分类或回归数据集中特征属性的排名信息。

**“属性排名”(Rank)**控件会计算特征属性不同指标的数值,用户可根据指标数值判断特征属性与目标属性的关联性,最终选择与目标属性关联性强的特征属性。


  • 输入:
    • data:数据集
    • scr(0个或多个):属性评分页面的模型,如线性/逻辑回归,随机森林,随机梯度下降等
  • 输出:
    • data:包含选中属性的数据集(用户需要进行选择相关属性的操作)
    • scs:属性评分

页面介绍

点击**“属性排名”(Rank)**控件查看参数配置页面,如下图所示:

点击**“详细配置”**按钮,可查看各属性排名:

警告

获取属性信息的逻辑如下:

  1. 优先解析直接上游组件的输出结果,需要您先将上游组件运行成功
  2. 如1不满足,将会追溯源头的File、SQL Table等加载数据的属性信息

若属性信息获取错误,可通过重置控件重新获取。

参数选项

选项说明取值范围样例值
分类评分

分类评分的各种方法:
  Infomation Gain:预期的信息量
  Gain Ratio:信息增益和属性内在信息的比率,减少了信息增益中出现的多值特征的偏差
  Gini:频率分布值之间的不等式
  ANOVA:不同类别的一般属性的平均值之差
  Chi2:以卡方统计为依据的一般属性与分类属性之间的依存关系
  ReliefF:属性区分相似数据实例的类别的能力
  FCBF(Fast Correlation Based Filter):基于熵的度量,也识别由于属性之间的成对相关而导致的冗余。

Infomation Gain
Gain Ratio
Gini
ANOVA
Chi2
ReliefF
FCBF

Gini
回归评分

回归评分的各种方法:
Univariate Linear Regression:一元线性回归
RReliefF:属性区分相似数据实例的类别的能力

Univariate Linear Regression
RReliefF

RReliefF
选择属性输出

以何种方式选择需要的属性

全选
手动选择
分数排名

手动选择

使用案例

在下图所示的案例中,使用**“加载文件”(File)控件加载数据,通过“查看数据”(Data Table)控件查看加载数据的信息,同时使用“属性排名”(Rank)控件查看各属性的评分并选择需要的属性,之后通过“查看数据”(Data Table)**控件查看处理后的数据集以及各属性评分。

案例中加载 iris 数据集,选择属性【sepal length】和属性【petal length】。案例中控件的配置以及执行结果如下图所示。