覆盖主要内容
版本: 6.1.0

语料库查看器

组件介绍

**“语料库查看器”(Corpus Viewer)**控件用于查看输入的文本数据集。

**“语料库查看器”(Corpus Viewer)**控件详细展示了输入文本数据集的相关信息,包括文档数,数据集内容,同时支持对数据集进行正则过滤。


  • 输入:
    • cor:文本数据集
  • 输出:
    • cor:文本数据集

页面介绍

点击**“语料库查看器”(Corpus Viewer)**控件查看参数配置页面,如下图所示:

参数选项

选项说明样例值
基本信息

文档:输入的文档数量
预处理:是否使用预处理器
POS标签:结果为真或假
N-grams 范围:如果 N-grams 在预处理文本中设置,结果会显示的范围
匹配数:RegExpi 过滤的文档数量

搜索特征

RegExp 筛选器过滤特性

文本数据集属性Title
显示特征

显示特征

文本数据集属性Title
RegExp过滤器

用于过滤文档的 Python 正则表达式

正则表达式

使用案例

在下图所示的案例中,使用**“加载语料库”(Corpus)控件加载文本数据集,之后连接“语料库查看器”(Corpus Viewer)**控件查看文本数据集的详情。

案例中加载 andersen 数据集,案例中控件的配置以及执行结果如下图所示。