相似度哈希
组件介绍
**“相似度哈希”(Similarity Hashing)**控件用于计算给定语料库的相似哈希。
相似度哈希是一种快速估算两个集合相似程度的技术,可使用该算法来查找近似的网页。
- 输入:
- cor:文本数据集
- 输出:
- cor:文本数据集
页面介绍
点击**“相似度哈希”(Similarity Hashing)**控件查看参数配置页面,如下图所示:
参数选项
选项 | 说明 | 取值范围 | 样例值 |
---|---|---|---|
Simhash 大小 | 输出属性个数 | 1~1024 | 64 |
Shingle 长度 | shingle中的tokens数量 | 1~100 | 10 |
使用案例
在下图所示的案例中,使用**“加载语料库”(Corpus)控件加载文本数据集,连接“相似度哈希”(Similarity Hashing)控件对数据进行处理,使用“查看数据”(Data Table)**控件查看处理后的数据。
案例中加载 andersen 数据集,其余控件使用默认参数,案例中控件的配置以及执行结果如下图所示。