覆盖主要内容
版本: 6.1.0

加载语料库

组件介绍

**“加载语料库”(Corpus)**加载文本文档。

**“加载语料库”(Corpus)**控件支持加载系统提供的样例数据,也支持通过上传指定文件的方式加载数据,上传文件的格式支持csv格式和tab格式。加载语料库后可对语料库进行查看,分析等操作。


  • 输入:
  • 输出:
    • cor:文本实例

页面介绍

点击**“加载语料库”(Corpus)**控件查看参数配置页面,如下图所示:

参数选项

选项说明取值范围样例值
标签选项

样例数据:系统提供的样例文本数据集,可直接选择加载
手动上传:上传自定义文本数据集

系统提供了8个样例文本数据集供用户选择
20newsgroups-test:20个不同主题的新闻组集合测试集
20newsgroups-train:20个不同主题的新闻组集合训练集
andersen:安徒生童话故事
book-excerpts:书籍节选
deerwester:书籍目录
election-tweets-2016:twitter数据集
grimm-tales-selected:格林童话筛选
grimm-tales:格林童话

andersen
标题

配置文本数据集的标题属性

文本数据集属性
可选属性/忽略属性

配置文本数据集的可选属性以及忽略属性

文本数据集属性

使用案例

在下图所示的案例中,使用**“加载语料库”(Corpus)控件加载文本数据集,连接用“语料库查看器”(Corpus Viewer)**控件查看结果。

案例中加载 andersen 样例数据集,案例中控件执行结果如下图所示: