覆盖主要内容
版本: 6.1.0

加载文件

组件介绍

**“加载文件”(File)**控件主要用于加载实例数据集文件以及用户上传的数据集文件。

**“加载文件”(File)**控件支持加载系统提供的样例数据集,也支持通过上传指定文件的方式加载数据集,上传文件的格式支持csv格式和tab格式。加载数据集后可对数据进行数据预处理、数据查看、数据挖掘模型构建等操作。


  • 输入:
  • 输出:
    • data:数据集

**“加载文件”(File)**控件读取输入数据文件(带数据实例的数据表)并将数据集发送到其输出通道。该控件可以从 Excel(.xlsx)、简单制表符分隔文件、逗号分隔文件(.csv)等不同文件类型中读取数据集。

警告

对于csv文件,如果包含中文请使用utf-8格式。

页面介绍

点击**“加载文件”(File)**控件查看参数配置页面,如下图所示:

参数选项

选项说明取值范围样例值
标签选项

样例数据:系统提供的样例数据集,可直接选择加载
手动上传:上传自定义数据集
URL源:加载在线数据集

系统提供了17个样例数据集供用户选择
adult:收入情况数据集
airpassengers:机场客流量数据集
breast-cancer:乳腺癌数据集
bridges:桥梁数据集
bridges.mt1:桥梁数据集
bridges.mt2:桥梁数据集
car:汽车信息数据集
glass:玻璃类型数据集
heart_disease:心脏病数据集
housing:波士顿房价数据集
iris:鸢尾花数据集
lenses:隐形眼镜数据集
market-basket:超市购物数据集
titanic:泰坦尼克号幸存者数据集
voting:议案投票数据集
wine:葡萄酒数据集
zoo:动物园数据集

iris
基本信息

显示文件中数据集的相关信息,包括数据集大小,属性数目以及属性类型

属性列

显示文件中数据集的属性信息,属性名,属性类型,属性类别

提示

在加载数据时,该控件会把数据分为四种类型:

  • numeric(数值型)
  • categorical(离散型)
  • text(字符型)
  • datetime(日期型)

也会把属性分为四种类型:

  • feature(一般属性,一般为连续型或离散型)
  • class/target(分类属性,一般为连续型或离散型)
  • meta(元属性,一般为字符型,不用于分类或回归分析)
  • skip(忽略该属性,即不加载该属性)

在加载文件时,当用户想要指定属性的类型以及数据的类型时,可以使用C/c, D/d, S/s, T/t分别表示 numeric(数值型), categorical(离散型), text(字符型), datetime(日期型)
同时使用 feature/'' 表示 feature(一般属性),class表示class/target(分类属性),meta 表示 meta(元属性),ignore表示忽略的列

如下图所示,设置“sepal length”,“sepal width”,“petal length”,“petal width”为数值型&一般属性,设置“iris”为离散型&分类属性。

demo-file

使用案例

**“加载文件”(File)控件一般作为一个工作流的开端,加载数据进行相关处理。如下图所示的工作流中 ,使“加载文件”(File)控件加载数据,连接“查看数据”(Data Table)**控件查看数据。

案例中加载样例数据中的 iris 示例数据集,案例中控件执行结果如下图所示: