覆盖主要内容
版本: 6.1.0

主题模型

组件介绍

**“主题模型”(Topic Modelling)**控件用于对输入的文本数据集进行情感分析。

**“主题模型”(Topic Modelling)**控件根据每篇文档中的词组及词频来发现语料库中的抽象主题。一个文档通常包含不同比例的多个主题,因此该控件还能计算每个文档中的主题权重。支持的主题模型算法有隐式语义索引(LSI)潜在狄利克雷分布(LDA)


  • 输入:
    • cor:文本数据集
  • 输出:
    • cor:文本数据集
    • selTop:选择主题的单词权重
    • allTop:所有关键字的权重

页面介绍

点击**“主题模型”(Topic Modelling)**控件查看参数配置页面,如下图所示:

点击**“查看数据”**按钮,进行文本搜索:

参数选项

选项说明样例值
基本信息

模型:
  隐式语义索引
  潜在狄利克雷分布

隐式语义索引
潜在狄利克雷分布

隐式语义索引

使用案例

在下图所示的案例中,使用**“加载语料库”(Corpus)控件加载文本数据集,使用“语料库查看器”(Corpus Viewer)查看文本数据,同时连接“主题模型”(Topic Modelling)控件进对数据进行处理,之后使用“语料库查看器”(Corpus Viewer)**控件查看处理后的数据。

案例中加载 andersen 数据集,参数使用默认参数,案例中控件的配置以及执行结果如下图所示。