从零开始学Python数据分析与挖掘
上QQ阅读APP看书,第一时间看更新

1.3 数据分析与挖掘的区别

从广义的角度来说,数据分析的范畴会更大一些,涵盖了数据分析和数据挖掘两个部分。数据分析就是针对搜集来的数据运用基础探索、统计分析、深层挖掘等方法,发现数据中有用的信息和未知的规律与模式,进而为下一步的业务决策提供理论与实践依据。所以广义的数据分析就包含了数据挖掘的部分,正如读者在各招聘网站中所看见的,对于数据分析师的任职资格中常常需要应聘者熟练使用数据挖掘技术解决工作中的问题。从狭义的角度来说,两者存在一些不同之处,主要体现在两者的定义说明、侧重点、技能要求和最终的输出形式。接下来阐述这几个方面的差异。

  • 从定义说明出发:数据分析采用适当的统计学方法,对搜集来的数据进行描述性分析和探索性分析,并从描述和探索的结果中发现数据背后存在的价值信息,用以评估现状和修正当前的不足;数据挖掘则广泛交叉数据库知识、统计学、机器学习、人工智能等方法,对搜集来的数据进行“采矿”,发现其中未知的规律和有用的知识,进一步应用于数据化运营,让数据产生更大的价值。
  • 从侧重点出发:数据分析更侧重于实际的业务知识,如果将数据和业务分开,往往会导致数据的输出不是业务所需,业务的需求无法通过数据体现,故数据分析需要两者的紧密结合,实现功效的最大化;数据挖掘更侧重于技术的实现,对业务知识的熟练度并没有很高的要求,如何从海量的数据中发现未知的模式和规律,是数据挖掘的目的所在,只有技术过硬,才能实现挖掘项目的落地。
  • 从掌握的技能出发:数据分析一般要求具备基本的统计学知识、数据库操作技能、Excel报表开发和常用可视化图表展现的能力,就可以解决工作中的分析任务;数据挖掘对数学功底和编程能力有较高的要求,数学功底是数据挖掘、机器学习、人工智能等方面的基础,没有好的数学功底,在数据挖掘领域是走不远的,编程能力是从数据中发现未知模式和规律途径,没有编程技能,就无法实现算法的落地。
  • 从输出的结果出发:数据分析更多的是统计描述结果的呈现,如平均水平、总体趋势、差异对比、数据转化等,这些结果都必须结合业务知识进行解读,否则一组数据是没有任何实际意义的;数据挖掘更多的是模型或规则的输出,通过模型或规则可对未知标签的数据进行预测,如预测交通的畅通度(预测模型)、判别用户是否响应某种营销活动(分类算法);通过模型或规则实现智能的商业决策,如推荐用户可能购买的商品(推荐算法)、划分产品所属的群类(聚类算法)等。

为了读者更容易理解和区分两者之间的差异,这里将上面描述的四方面内容做一个简短的对比和总结,如表1-1所示。

表1-1 数据分析与挖掘对比