覆盖主要内容
版本: 6.1.0

数据抽样

组件介绍

**“数据抽样”(Data Sampler)**控件实现了多种采样方法对输入数据集进行抽样。

**“数据抽样”(Data Sampler)**控件提供了固定比例抽样,固定样本大小抽样,交叉验证抽样和自助式抽样四种抽样方式,该控件方便用户把一个数据拆分为两个集合(抽样数据及剩余数据),拆分后的数据其中一个可用于模型训练即作为训练集,另一个可作为测试集使用。


  • 输入:
    • data:数据集
  • 输出:
    • smp:抽样后的数据集
    • rmn:来自输入数据集的所有其他数据(不包含抽样后的数据)

页面介绍

点击**“数据抽样”(Data Sampler)**控件查看参数配置页面,如下图所示:

参数选项

选项说明取值范围样例值
抽样类型

固定比例:采样的数据集大小为整个数据集大小乘以设定的百分比
固定样本大小:采样的数据集大小为设定的数量(每次采样总是基于整个数据集进行采样,不会减去已经采样处的子集中的实例)
交叉验证:将数据数据集分区为互补子集,用户可以在其中选择样本集折数进行数据采样
自助式抽样法

固定比例:
  比例大小:199
固定样本大小:
  样本大小:1
1000
  是否有放回抽样
交叉验证
  样本折数:11000
  测试集折数:1
样本折数
自助式抽样

固定比例:
  比例大小:10

其它选项

根据需求选择是否可重复抽样以及分层抽样

勾选/不勾选

不勾选

使用案例

在下图所示的案例中,使用**“加载文件”(File)控件加载数据,通过“数据信息”(Data Info)控件查看加载数据的信息,同时使用“数据抽样”(Data Sampler)控件进行数据采样,之后通过“查看数据”(Data Table)**控件查看处理后的数据集。

在案例中加载 titanic 数据集,使用了固定比例的采样方式进行数据采样,采样比例设定为20%。案例中控件的配置以及执行结果如下图所示。