覆盖主要内容
版本: 6.1.0

文本增强

组件介绍

**“文本增强”(Word Enrichment)**控件对文本数据集进行词富集分析。

**“文本增强”(Word Enrichment)**控件显示选中子集 p 值列表。p 值越低,表明所选子集单词是重要的可能性更高。FDR(错误发现率)与 p 值相关联,表示的是预测集合中错误预测的预期百分比,即低 p 值列表中的假阳性。


  • 输入:
    • sel:从语料库中选择的实例
    • cor:文本数据集
  • 输出:

页面介绍

点击**“文本增强”(Word Enrichment)**控件查看参数配置页面,如下图所示:

点击**“查看结果”**按钮,查看分析结果:

参数选项

选项说明取值范围样例值
基本信息

显示的单词

单词个数信息
过滤

p 值
FDR(错误发现率)
获取结果:点击”获取结果“,根据设置在右侧显示单词列表

p值:01
FDR(错误发现率):0
1

p值:0.01
FDR(错误发现率):0.2

使用案例

在下图所示的案例中,使用**“加载语料库”(Corpus)控件连接“词袋”(Bag of Words)控件,使用“数据抽样”(Data Sampler)连接“词袋”(Bag of Words)**控件,使用 **“数据抽样(Data Sampler)”的输出smp、rmn分别连接“文本增强”(Word Enrichment)**控件的sel、cor输入,

案例中**“加载语料库”(Corpus)控件加载“book-excerpts”数据集,“词袋”(Bag of Words)控件和“数据抽样”(Data Sampler)控件采用默认配置。“文本增强”(Word Enrichment)**控件设置如下:过滤选择 p 值,设置为 0.2。运行结果如下图所示。