版本: 6.1.0

离群值处理

组件介绍

**“离群值处理”（Outliers）**控件根据指定离群值检测策略对输入数据集进行离群值检测。

离群值是指与其他观测值有显著差异的数据点，在数据挖掘分析中，离群值可能会导致分析出现偏差，所以有时会剔除离群值后再进行模型训练。

输入：
- data：数据集
输出：
- inl：内群值数据集
- otl：离群值数据集

页面介绍

点击**“离群值处理”（Outliers）**控件查看参数配置页面，如下图所示：

警告

获取属性信息的逻辑如下：

优先解析直接上游组件的输出结果，需要您先将上游组件运行成功
如1不满足，将会追溯源头的File、SQL Table等加载数据的属性信息

若属性信息获取错误，可通过重置控件重新获取。

参数选项

选项	说明	取值范围	样例值
离群值检测方法及参数	One class SVM：根据核心类对数据进行分类 Nu 是训练误差部分的上限和支持向量部分的下限参数核系数（Kernel coefficient）是一个伽玛参数，它指定了单个数据实例具有多少影响力 Covariance Estimator：使用距离度量对数据进行分类污染指数（Contamination）是指数据集中离群值的比例支持比例（Support fraction）指定包含在估计中的点的比例 Local Outlier Factor：k-最近邻对数据分类污染指数（Contamination）是指数据集中离群值的比例邻接点（Neighbor）是指邻节点数度量（Metric）是距离指标 Isolation Forest：通过随机选择一个特征，然后根据随机选择所选特征的最大值和最小值之间的分割值来进行分类污染指数（Contamination）是指数据集中离群值的比例可复制训练（Replicable）是代表是否启用随机种子	One class SVM Nu：1%100% 核系数：0.0110 Covariance Estimator 污染指数：0%100% 支持比例：0.110 Local Outlier Factor 污染指数：1%50% 邻接点：1100000 度量：欧几里得曼哈顿余弦杰卡德汉明闵可夫斯基 Isolation Forest 污染指数：0%~100% 可复制训练：勾选/不勾选	One class SVM Nu: 10% 核系数：0.01

使用案例

在下图所示的案例中，使用**“加载文件”（File）控件加载数据，通过“查看数据”（Data Table）控件查看加载数据的信息，同时使用“离群值处理”（Outliers）控件对数据集中离群值进行检测，之后通过“查看数据”（Data Table）**控件查看离群值数据集和内群值数据集。

案例中加载 iris 数据集，**“离群值处理”（Outliers）**使用默认配置。案例中控件的配置以及执行结果如下图所示。

组件介绍​

页面介绍​

参数选项​

使用案例​

组件介绍

页面介绍

参数选项

使用案例