覆盖主要内容
版本: 6.1.0

频繁项集

组件介绍

“频繁项集”(Frequent Itemsets) 控件基于支持度度量规则找出数据集中的频繁项集,频繁项集一般指支持度大于等于最小支持度(min_sup)的集合,其中支持度是指某个集合在所有事务中出现的频率。

频繁项集挖掘是数据挖掘研究课题中一个很重要的研究基础,它可以告诉我们在数据集中经常一起出现的变量,为可能的决策提供一些支持。频繁项集挖掘是关联规则、相关性分析、因果关系、序列项集、局部周期性、情节片段等许多重要数据挖掘任务的基础。因此,频繁项集有着很广泛的应用,例如:购物篮数据分析、网页预取、交叉购物、个性化网站、网络入侵检测等。


  • 输入:
    • data:数据集
  • 输出:
    • data:符合判定条件的数据示例

页面介绍

点击**“频繁项集”(Frequent Itemsets)**控件查看参数配置页面,如下图所示:

参数选项

选项说明取值范围样例值
查找项集

用户可以通过设置项集搜索的条件查找项集:
  最小支持度:所要生成的项集在数据集中的最小占比。对于大型数据集而言,一般该值设置为一个较小的数目,如0.01%~2%。
  最大项集数:设置项集数的上限。

最小支持度:
  0.0001%100%
最大项集数:
  10000
100000

最小支持度:1%
最大项集数:10000

过滤项集

过滤项集:为用户提供用来过滤项集的正则表达式匹配操作。需要匹配多个词时,可以用逗号将各个正则表达式分隔开
  包含:通过正则表达式来过滤项集
  最小层级:项集中必须出现的最小项数;如果为1,将显示所有项集
  最大层级:项集中出现的最大项数;即如果想要查找具有少于 5 个项的项集,可将该参数设置为 5

包含:用户可以使用空格分隔的正则表达式过滤项集
最小层级:1最大层级
最大层级:最小层级
999

包含:female
最小层级:1
最大层级:999

频繁项集表

设置参数后,点击“查找项集”按钮,即可根据当前指定设置查找满足过条件的项集树。

该表包含以下列:

列名说明
项集

关联项集信息

支持度

所生成的项集包含的实例数

%

所生成的项集在数据集中的占比

使用案例

在下图所示的案例中,使用**“文件加载”(File)控件加载数据,使用“查看数据”(Data Table)控件查看数据集内容,通过“频繁项集”(Frequent Itemsets)**查找满足条件的项集。

案例中加载 titanic 示例数据集,案例中控件执行结果如下图所示: