版本: 下个版本

Mean Shift

组件介绍

**“Mean Shift”**控件基于核密度估计进行聚类操作。

Mean Shift（均值漂移）是基于密度的非参数聚类算法，其算法思想是假设不同簇类的数据集符合不同的概率密度分布，找到任一样本点密度增大的最快方向（最快方向的含义就是Mean Shift），样本密度高的区域对应于该分布的最大值，这些样本点最终会在局部密度最大值收敛，且收敛到相同局部最大值的点被认为是同一簇类的成员。

密度估计是指有给定样本集和求解随机变量的分布密度函数，解决这一问题的方法包括：参数估计和非参数估计。

参数估计：在我们已经知道观测数据符合某些模型的情况下，我们可以利用参数估计的方法来确定这些参数值，然后得出概率密度模型。前提是观测数据服从一个已知概率密度函数。

非参数估计：无需任何先验知识完全依靠特征空间中样本点计算其密度估计值.可以处理任意概率分布，不必假设服从已知分布；常用的无参数密度估计方法有：直方图法、最近邻域法和核密度估计法。MeanShift算法正属于核密度估计法。无需任何先验知识完全依靠特征空间中样本点计算其密度估计值。

输入：
- data：数据集
输出：
- data：处理后的数据集
- cen：每个簇的中心点

页面介绍

点击**“Mean Shift”**控件查看参数配置页面，如下图所示：

参数选项

选项	说明	取值范围	样例值
分位点	【0，1】之间	0~1	0.3
样本数	用于计算的实例数	1~10000	150
核函数宽带	根据参数计算出的核函数带宽
最大迭代数	算法运行的最大迭代次数	1~10000	300

详细参数说明

使用案例

在下图所示的案例中，使用**“加载文件”（File）控件加载数据集，连接“Mean Shift”控件进行聚类，之后连接“查看数据”（Data Table）**控件查看聚类结果。

案例中加载 iris 数据集，案例中控件的配置以及执行结果如下图所示。

组件介绍​

页面介绍​

参数选项​

使用案例​

组件介绍

页面介绍

参数选项

使用案例