大数据技术导论
上QQ阅读APP看书,第一时间看更新

3.1.3 度量和维度

表3.2是一个最简单的消费者购物的数据例子。

表3.2 消费者购物的数据

表3.2中涉及的数据项(或者叫字段)有“订单 ID”“用户 ID”“地区”“年龄”“订单金额”“订单商品”和“订单时间”。

这些数据项有什么差异呢?总体而言,差异分为两种情况,一种叫维度,另一种叫度量(或者叫指标)。在表3.2里,“订单金额”是度量,其余数据项都是维度。

可以看出,度量是具体的计算用的量化数值,而维度是描述事物的各种属性信息。

虽然度量都是数值,但是数值不一定是度量,比如订单ID是数值,但它不是度量而是维度,像时间、文本类的数据都是维度。

注意:1)维度和度量是可以转换的。比如要看“年龄”的平均数,这里的“年龄”就是度量,要看19岁用户的订单情况,这里的“年龄”就是维度。对于一个数据项而言,到底它是维度还是度量,是根据用户的需求而定的。

2)维度可以衍生出新的维度和度量,比如用“地区”维度衍生出一个大区维度,“北京”“天津”都对应“华北大区”,或者用“年龄”维度衍生出一个年龄范围维度,20~29岁=“青年人”,30~39岁=“中年人”,40~49岁=“资深中年人”。再比如上述的平均年龄,就是用“年龄”维度衍生出的一个度量。

3)度量也可以衍生出新的维度和度量,比如用“订单金额”度量衍生出一个金额范围维度,100元以下对应“小额订单”,500元以上对应“大额订单”等。再比如用“收入”度量和“成本”度量相减,可以得到一个“利润”度量。