覆盖主要内容

直方图

简介

在统计学中,直方图(英语:histogram)是一种对数据分布情况的图形表示,是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量,以长条图(bar)的形式具体表现。因为直方图的长度及宽度很适合用来表现数量上的变化,所以较容易解读差异小的数值。

相关概念

  • 组数:在统计数据时,我们把数据按照不同的范围分成几个组,分成的组的个数称为组数
  • 组距:每一组两个端点的差
  • 频数:分组内的数据元的数量除以组距

频数分布直方图

非标准的直方图(面积无意义)

应用场景

适合的场景

  1. 当数据具有单个自变量时 当数据依赖于像客户年龄这样的单个变量时,应使用直方图。直方图可帮助查看者了解因变量的分布。例如,基于年龄的客户银行存款余额。

  2. 当数据具有连续范围时 当样本数据表示学生考试成绩等连续范围时,直方图很有用。当数据在其范围内存在显著差距时,直方图可能不适合。

  3. 当需要比较两个数据集时 直方图是比较两个数据集的频率分布的绝佳工具。例如,考虑不同年龄组的顾客的购买次数。直方图可用于比较多个商店中的这些数据。

不适合的场景

  1. 当数据为非数字时 直方图最适用于具有连续数据范围的数值变量的图形表示。如果数据由性别或位置等非数字值组成,则直方图显然是不合适的。在这种情况下,可以使用饼图或条形图。

  2. 当样本数量较小时 抽取的样本数量过小,将会产生较大误差,可信度低,也就失去了统计的意义。因此,样本数不应少于 50 个。

  3. 当数据中存在较大间隙时 当样本数据连续时,直方图最适合。直方图表示属于不同条柱的数据点,因此当数据丢失或未定义时,图形效率低下。

案例

案例数据下载学生成绩表

案例介绍:本案例是某班级60名学生的某项成绩表,满分150,作为该门课程的教师或校领导想要看学生的成绩分布,此时选用直方图进行展示比较合适。

直方图制作流程

  1. 页面右侧的图表中选择直方图;
  2. 将度量字段中的【成绩】字段拖入度量,可以看到系统默认生成的直方图;
  3. 展开设置Tab中的基础配置, 可以看到默认的分箱类型为分箱数量,分箱数量是6,即直方图中的柱子个数是6,从下图中可以看到X轴的最后一根柱子的范围超过了150(成绩的最大值),因此需要对坐标轴进行优化;
  4. 选择分箱类型为分箱宽度,宽度设为10,即每个柱子都是10分;
  5. 设置X轴的最大值为150,最小值是0,X轴坐标轴的间距是10,Y轴的最大值为8,鼠标移动到柱子上可以看到各个区间的人数,如下图所示:
  6. 如果想看某个成绩区间中的男生数量和女生数量,可以将维度字段【性别】拖到维度处,结果如下图所示: