文本增强
组件介绍
**“文本增强”(Word Enrichment)**控件对文本数据集进行词富集分析。
**“文本增强”(Word Enrichment)**控件显示选中子集 p 值列表。p 值越低,表明所选子集单词 是重要的可能性更高。FDR(错误发现率)与 p 值相关联,表示的是预测集合中错误预测的预期百分比,即低 p 值列表中的假阳性。
- 输入:
- sel:从语料库中选择的实例
- cor:文本数据集
- 输出:
- 无
页面介绍
点击**“文本增强”(Word Enrichment)**控件查看参数配置页面,如下图所示:
点击**“查看结果”**按钮,查看分析结果:
参数选项
选项 | 说明 | 取值范围 | 样例值 |
---|---|---|---|
基本信息 | 显示的单词 | 单词个数信息 | |
过滤 | p 值 | p值:0 | p值:0.01 |
使用案例
在下图所示的案例中,使用**“加载语料库”(Corpus)控件连接“词袋”(Bag of Words)控件,使用“数据抽样”(Data Sampler)连接“词袋”(Bag of Words)**控件,使用 **“数据抽样(Data Sampler)”的输出smp、rmn分别连接“文本增强”(Word Enrichment)**控件的sel、cor输入,
案例中**“加载语料库”(Corpus)控件加载“book-excerpts”数据集,“词袋”(Bag of Words)控件和“数据抽样”(Data Sampler)控件采用默认配置。“文本增强”(Word Enrichment)**控件设置如下:过滤选择 p 值,设置为 0.2。运行结果如下图所示。