覆盖主要内容
版本: 6.1.0

离群值处理

组件介绍

**“离群值处理”(Outliers)**控件根据指定离群值检测策略对输入数据集进行离群值检测。

离群值是指与其他观测值有显著差异的数据点,在数据挖掘分析中,离群值可能会导致分析出现偏差,所以有时会剔除离群值后再进行模型训练。


  • 输入:
    • data:数据集
  • 输出:
    • inl:内群值数据集
    • otl:离群值数据集

页面介绍

点击**“离群值处理”(Outliers)**控件查看参数配置页面,如下图所示:

警告

获取属性信息的逻辑如下:

  1. 优先解析直接上游组件的输出结果,需要您先将上游组件运行成功
  2. 如1不满足,将会追溯源头的File、SQL Table等加载数据的属性信息

若属性信息获取错误,可通过重置控件重新获取。

参数选项

选项说明取值范围样例值
离群值检测方法及参数

One class SVM:根据核心类对数据进行分类
  Nu 是训练误差部分的上限和支持向量部分的下限参数
  核系数(Kernel coefficient)是一个伽玛参数,它指定了单个数据实例具有多少影响力
Covariance Estimator:使用距离度量对数据进行分类
  污染指数(Contamination)是指数据集中离群值的比例
  支持比例(Support fraction)指定包含在估计中的点的比例
Local Outlier Factor:k-最近邻对数据分类
  污染指数(Contamination)是指数据集中离群值的比例
  邻接点(Neighbor)是指邻节点数
  度量(Metric)是距离指标
Isolation Forest:通过随机选择一个特征,然后根据随机选择所选特征的最大值和最小值之间的分割值来进行分类
  污染指数(Contamination)是指数据集中离群值的比例
  可复制训练(Replicable)是代表是否启用随机种子

One class SVM
  Nu:1%100%
  核系数:0.01
10
Covariance Estimator
  污染指数:0%100%
  支持比例:0.1
10
Local Outlier Factor
  污染指数:1%50%
  邻接点:1
100000
  度量:
    欧几里得
    曼哈顿
    余弦
    杰卡德
    汉明
    闵可夫斯基
Isolation Forest
  污染指数:0%~100%
  可复制训练:勾选/不勾选

One class SVM
Nu: 10%
核系数:0.01

使用案例

在下图所示的案例中,使用**“加载文件”(File)控件加载数据,通过“查看数据”(Data Table)控件查看加载数据的信息,同时使用“离群值处理”(Outliers)控件对数据集中离群值进行检测,之后通过“查看数据”(Data Table)**控件查看离群值数据集和内群值数据集。

案例中加载 iris 数据集,**“离群值处理”(Outliers)**使用默认配置。案例中控件的配置以及执行结果如下图所示。