覆盖主要内容
版本: 6.1.0

层次聚类

简介

层次聚类是一种无监督学习算法,用于将数据集中的样本分组成不同的层次结构。该算法通过计算样本之间的相似度或距离,将最相似的样本归为一组,并逐步合并不同组,形成一个层次结构。

在层次聚类中,有两种方法:凝聚聚类和分裂聚类。凝聚聚类从每个样本开始,逐步合并成越来越大的组,直到所有样本都在同一组中。而分裂聚类则从所有样本开始,逐步分裂成越来越小的子组。

在进行层次聚类时,需要选择相似度或距离度量方法,例如欧氏距离、曼哈顿距离、余弦相似度等。同时还需要选择合适的聚类算法和停止条件,例如最大距离、最小距离、平均距离等。

应用领域

层次聚类算法可以用于许多领域,例如生物学、社会科学、市场营销等。它可以帮助人们发现数据中的模式和结构,并提供有用的信息来指导决策。

算法参数及说明

参数说明
聚簇数默认2

案例

案例数据下载iris.xlsx

案例介绍:Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

  • Sepal.Length(花萼长度),单位是cm;
  • Sepal.Width(花萼宽度),单位是cm;
  • Petal.Length(花瓣长度),单位是cm;
  • Petal.Width(花瓣宽度),单位是cm;
  • 种类:Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),以及Iris Virginica(维吉尼亚鸢尾)。

制作流程

  1. 选择iris数据集;
  2. 在智能分析图表中选择层次聚类;
  3. 设置目标属性和特征属性;
  4. 设置聚簇数值;
  5. 点击执行预测;
  6. 设置X轴属性和Y轴属性;