相关术语及说 明
OLAP(On-line Analytical Processing,联机分析处理)技术是为了数据仓库与多维数据分析而设计的一种技术。它允许用户以快速、高效和交互式的方式对数据进行复杂的查询和分析。
数据库
数据库是相关联的数据的集合;用综合的方法组织数据,保证尽可能高的访问效率;具有较高的数据独立性;具有安全控制机制,能够保证数据的安全、可靠;允许并发的使用,能有效、及时的处理数据,能保证数据的一致性、完整性。
多维分析元素
OLAP 基于多维数据模型,支持数据的多维展现,如星型模型和雪花模型,使用户能够从多个维度进行数据分析。 多维模型主要包含这几个概念:数据立方(Cube)、维度(Dimension)、层次(Hierarchy)、级别(Level)、成员(Member)以及度量(Measure)。
数据立方(Cube)
数据立方也可称为多维数据集,代表用三维或更多为描述的一个对象,每个维彼此垂直。数据的度量值发生在维的交叉点上,下图是一个立方体的实例,它有三个维度:时间,产品,工厂。度量值是维与维的交点产生的小立方体单元格,它描述了产品的生产数量。
一个多维数据集(Cube)是由很多数据维(Dimension,简称【维】)组成的,每一个维都表示某一类数据。维里的数据都限制在某一问题所界定的领域之内。一个数据维可以包含一个或多个层次(Hierarchy),层次是多层结构中某一级别与下一级别之间的【父-子】关系,位于层次顶部的是【根级(Root Level)】,位于层次底部的是一个或多个【叶子(leaf)】。层次中的任何一级都可以看成是数据维里的一类数据。层次里某一级别的一个成员(Member),也可称为级别值(Level Value),包含了由一个级别所表示的数据集合。层次的顶部(根级)容纳了粗略划分的数据集合,而在层次的底部(叶子)则包含了精细划分的数据集合。
维度(Dimension)
维度表示数据分类的角度或方面。城市是一个维度,月份是一个维度。常用的是 3 维立体思维。 3 维可以构成一个立方体。 Slice 是一个立方体的切片。例如一月的所有城市的数据,构成一个面。 Dice 是一个立方体的切块。例如一月份的北京的数据,构成一个小立方体。也可以把维度理解成组的概念,把这些方面分组,把数值类型做统计汇总。常用来做维度的数据类型包括:
数据类型/字段类型 | 说明 |
---|---|
String | 字符串 |
Char | 单个字符 |
Boolean | 布尔 |
Date Hierarchy | 日期的所有层次 |
Other | 其他非数字和非日期的类型 |
同时,从维度的意义上说,维度可以分为【时间维度】和【标准维度】
共享维度
共享维度是指可以用在同一个数据库的不同多维数据集上的维度,与它对应的是【专用维度】。维度按结构可分为5种形式,即【星型架构:单个维度表】、【雪花架构:多个相关维度表】、【父子维度:单个维度表中相关的两列】、【虚拟维度:另一个维度的成员属性】、【挖掘模型:OLAP 挖掘模型的可预测列】。它们代表数据分析的不同需求和实体数据保存的不同方式。
父子维度
父子维度是由成员的父子关系定义的成员组织好的层次结构,这种数据关系发生在一个表内。通常,其各个分支并不具有对称数量的级别。
虚拟维度
虚拟维度是基于物理维度内容的逻辑维度,这些内容可以是物理维度中的现有成员属性,也可以是物理维度的表中的列。 使用虚拟维度的优点是不占用磁盘空间,也不耗费处理时间。
成员(Member)
成员就是在给定的维度中的一个点,性别 Gender 层次有两个成员“男M”和“女F”,“贵州Guizhou”、“湖北Hubei”和“北京Beijing”就是省份 Province 的所有成员。