覆盖主要内容
版本: 6.1.0

词袋

组件介绍

**“词袋”(Bag of Words)**控件根据输入文本数据集生成词袋信息。

**“词袋”(Bag of Words)**控件为每个数据实例(文档)创建一个包含词数的语料库。计数可以是绝对值、二元(包含或不包含)或次线性(词频的对数)。词袋模型需要与“文本增强”Word Enrichment控件结合使用。


  • 输入:
    • cor:文本数据集
  • 输出:
    • cor:处理后的文本数据集

页面介绍

点击**“词袋”(Bag of Words)**控件查看参数配置页面,如下图所示:

参数选项

选项说明取值范围样例值
词频

词频计算方式:
  Count:表示文档中一个词出现的次数
  Binary:文档中词出现或者不出现
  Sublinear:术语频率对数

计数
二元
次线性

文档频率

有三个选项,分别是 无、IDF、Smooth IDF
  IDF:表示逆文档频率
  Smooth IDF:用来添加一个文档频率,防止为零


逆文本频率指数
平滑逆文本频率指数

逆文本频率指数
正则化

正则化方法,分别是无、L1(元素总和)、L2(欧几里得范数)


L1(元素总和)
L2(欧几里得范数)

L1(元素总和)

使用案例

在下图所示的案例中,使用**“加载语料库”(Corpus)控件加载文本数据集,之后连接“词袋”(Bag of Words)控件进行数据处理,使用“查看数据”(Data Table)**控件查看结果。

案例中加载 andersen 数据集,其余使用默认参数,案例中控件的配置以及执行结果如下图所示。