版本: 6.1.0

关联规则

组件介绍

“关联规则”（Association Rules） 控件实现了 FP-growth 频繁模式挖掘算法，从输入数据中归纳关联规则。对于分类规则的推导，该控件会跳过结果不属于类取值范围的规则。

关联规则（Association Rules）是反映一个事物与其他事物之间的相互依存性和关联性，是数据挖掘的一个重要技术，用于从大量数据中挖掘出有价值的数据项之间的相关关系。通常的做法是挖掘隐藏在数据中的相互关系，当两个或多个数据项的取值相互间高概率的重复出现时，那么就会认为它们之间存在一定的关联；即两项或多项属性之间存在关联，那么其中一项的属性值就可以依据其他属性值进行预测。

关联规则可以用这样的方式来表示：A→B，其中A被称为前提、先导或者左部(LHS)，而B被称为结果、后继或者右部(RHS)。如果我们要描述关于尿布和啤酒的关联规则（买尿布的人也会买啤酒），那么我们可以这样表示：买尿布→买啤酒。

输入：
- data：数据集
输出：
- data：符合判定条件的数据示例

页面介绍

点击**“关联规则”（Association Rules）**控件查看参数配置页面，如下图所示：

参数选项

选项	说明	取值范围	样例值
查找关联规则	向用户提供关联规则的查找条件。如果选中"归纳分类（项->类别）规则"被勾选，那么控件将只生成在规则的右侧（后继）具有类值的规则最小支持度：规则覆盖的数据的最小占比最小置信度：在符合左侧条件（先导）的样例中，符合右侧结果的样例（后继）在其中的占比最大规则数：用来限制算法生成的规则的数量	最小支持度： 0.0001%~100% 最小置信度： 1%100% 最大规则数： 10000100000	最小支持度：1% 最小置信度：90% 最大规则数：10000
过滤规则	先导：包含：用户可以使用空格分隔的正则表达式过滤先导项最小项：在先导中项需要满足的词项出现的最小次数最大项：在先导中项需要满足的词项出现的最大次数后继：包含：用户可以使用空格分隔的正则表达式过滤先导项最小项：在后继中项需要满足的词项出现的最小次数最大项：在后继中项需要满足的词项出现的最大次数	先导：包含：用于查找先导项的正则表达式或字符串最小项：1最大项最大项：最小项999 后继：包含：用于查找先导项的正则表达式或字符串最小项：1最大项最大项：最小项999	先导：包含：crew 最小项：1 最大项：999 后继：包含：adult 最小项：1 最大项：999

关联规则表

设置参数后，点击“查找规则”按钮，即可根据当前指定设置从输入数据中归纳关联规则。

该表包含以下列：

列名	说明
支持度	项集或者规则在数据集中出现的频率，确定规则可以用于给定数据集的频繁程度
置信度	表明项集或规则被发现为真的概率
覆盖率	适用该规则的数据占比
强度
提升比率	用来判断该规则是否具有实际价值，即规则出现的次数是否高于单一数据出现的次数，大于1说明该组合方式有效，小于1则说明无效
杠杆率	衡量数据集中同时出现X和Y的差异，以及在X和Y在统计上相关的情况下的期望值
先导	规则左部
后继	规则右部

使用案例

在下图所示的案例中，使用**“文件加载”（File）控件加载数据，使用“查看数据”（Data Table）控件查看数据集内容，通过“关联规则”（Association Rules）**查找满足条件的关联规则。

案例中加载 titanic 示例数据集，案例中控件执行结果如下图所示：

组件介绍​

页面介绍​

参数选项​

关联规则表​

使用案例​

组件介绍

页面介绍

参数选项

关联规则表

使用案例