覆盖主要内容
版本: 6.1.0

相似度哈希

组件介绍

**“相似度哈希”(Similarity Hashing)**控件用于计算给定语料库的相似哈希。

相似度哈希是一种快速估算两个集合相似程度的技术,可使用该算法来查找近似的网页。


  • 输入:
    • cor:文本数据集
  • 输出:
    • cor:文本数据集

页面介绍

点击**“相似度哈希”(Similarity Hashing)**控件查看参数配置页面,如下图所示:

参数选项

选项说明取值范围样例值
Simhash 大小

输出属性个数

1~102464
Shingle 长度

shingle中的tokens数量

1~10010

使用案例

在下图所示的案例中,使用**“加载语料库”(Corpus)控件加载文本数据集,连接“相似度哈希”(Similarity Hashing)控件对数据进行处理,使用“查看数据”(Data Table)**控件查看处理后的数据。

案例中加载 andersen 数据集,其余控件使用默认参数,案例中控件的配置以及执行结果如下图所示。