覆盖主要内容
版本: 下个版本

数据预处理

组件介绍

**“数据预处理”(Preprocess)**控件支持选定一系列的预处理方法对数据集进行预处理。

**“数据预处理”(Preprocess)**控件支持定义一系列预处理操作,系统会根据定义的预处理操作顺序对输入数据集进行相关处理。只需使用该控件即可实现多个数据预处理控件连接的处理流程,极大简化了用户的操作步骤。


  • 输入:
    • data:数据集
  • 输出:
    • data:预处理后的数据
    • pre:预处理方法

页面介绍

点击**“数据预处理”(Preprocess)**控件查看参数配置页面,如下图所示:

警告

获取属性信息的逻辑如下:

  1. 优先解析直接上游组件的输出结果,需要您先将上游组件运行成功
  2. 如1不满足,将会追溯源头的File、SQL Table等加载数据的属性信息

若属性信息获取错误,可通过重置控件重新获取。

参数选项

选项说明取值范围样例值
添加预处理

预处理选项中有多种处理方式,用户可以按照自己的需求选择使用何种预处理数据的手段。并且其按照顺序执行预处理方法。

离散化
连续化
缺失值处理
关联属性选择
随机选取属性
标准化属性
数据混淆
主成分分析
CUR矩阵分解

使用案例

在下图所示的案例中,使用**“加载文件”(File)控件加载数据,通过“查看数据”(Data Table)控件查看加载数据的信息,同时使用“数据预处理”(Preprocess)控件对数据集进行预处理,之后通过“查看数据”(Data Table)**控件查看处理后的数据集。

案例中加载 bridges 数据集,选择“连续化处理”,“缺失值处理”,“数据混淆”对数据集进行预处理,其中各处理的参数设置为默认设置。案例中控件的配置以及执行结果如下图所示。