词袋
组件介绍
**“词袋”(Bag of Words)**控件根据输入文本数据集生成词袋信息。
**“词袋”(Bag of Words)**控件为每个数据实例(文档)创建一个包含词数的语料库。计数可以是绝对值、二元(包含或不包含)或次线性(词频的对数)。词袋模型需要与“文本增强”Word Enrichment控件结合使用。
- 输入:
- cor:文本数据集
- 输出:
- cor:处理后的文本数据集
页面介绍
点击**“词袋”(Bag of Words)**控件查看参数配置页面,如下图所示:
参数选项
选项 | 说明 | 取值范围 | 样例值 |
---|---|---|---|
词频 | 词频计算方式: | 计数 | |
文档频率 | 有三个选项,分别是 无、IDF、Smooth IDF | 无 | 逆文本频率指数 |
正则化 | 正则化方法,分别是无、L1(元素总和)、L2(欧几里得范数) | 无 | L1(元素总和) |
使用案例
在下图所示的案例中,使用**“加载语料库”(Corpus)控件加载文本数据集,之后连接“词袋”(Bag of Words)控件进行数据处理,使用“查看数据”(Data Table)**控件查看结果。
案例中加载 andersen 数据集,其余使用默认参数,案例中控件的配置以及执行结果如下图所示。