更新时间:2021-12-15 15:19:03
封面
版权页
内容概述
前言
第1章 概论
1.1 揭秘大数据
1.1.1 大数据产生历史必然
1.1.2 大数据概念和特征
1.1.3 大数据生命周期
1.1.4 大数据与物联网、云计算、人工智能
1.1.5 大数据时代的八个重大变革
1.2 Linux系统概述
1.2.1 Linux版本
1.2.2 Linux系统目录结构
1.2.3 文本编辑器vi
1.2.4 文件权限解读
1.2.5 Linux系统常用命令
习题1
实验报告1 Linux实验
第2章 大数据生态系统
2.1 认识Hadoop
2.2 HDFS
2.2.1 HDFS体系结构
2.2.2 HDFS存储原理
2.2.3 HDFS常用操作
2.3 MapReduce
2.3.1 MapReduce逻辑结构
2.3.2 MapReduce操作案例
*2.4 Zookeeper
习题2
实验报告2 Hadoop实验
第3章 大数据采集与预处理
3.1 数据
3.1.1 数据是什么
3.1.2 数据分类
3.1.3 度量和维度
3.2 数据采集
3.2.1 数据采集分类
3.2.2 数据采集方法
3.2.3 数据采集工具
3.3 数据清洗
3.3.1 数据清洗原理
3.3.2 缺失值和异常数据
3.3.3 数据清洗基本操作
3.4 网络爬虫
3.4.1 爬虫简介
*3.4.2 论坛爬虫源代码分析
习题3
*实验报告3 网络爬虫
第4章 大数据管理
4.1 NoSQL
4.1.1 NoSQL概述
4.1.2 键值数据库
4.1.3 图数据库
4.1.4 文档数据库
4.1.5 列式数据库
4.1.6 云数据库
4.2 HBase
4.2.1 HBase模型
4.2.2 HBase与传统关系数据库的对比分析
4.2.3 HBase系统架构
4.2.4 HBase常用Shell命令
习题4
实验报告4 HBase实验
第5章 大数据分析
5.1 大数据分析概述
5.1.1 数据分析原则
5.1.2 大数据分析特点
5.1.3 大数据分析流程
5.1.4 数据分析师基本技能和素质
*5.1.5 大数据分析难点
*5.2 业务理解
5.2.1 什么是业务理解
5.2.2 如何理解业务
5.2.3 数据业务化
5.3 数据认知
5.3.1 数据变换
5.3.2 概率分析
*5.3.3 对比分析
*5.3.4 细分分析
*5.3.5 交叉分析
5.3.6 相关分析
5.4 特征工程
5.4.1 特征工程面临的挑战
5.4.2 特征选择
5.4.3 特征提取
5.4.4 指标设计
5.5 数据建模
5.5.1 模型分类
5.5.2 决策树
5.5.3 关联分析
5.5.4 回归分析
5.5.5 聚类分析
*5.5.6 k-邻近分类算法KNN
*5.6 通用计算引擎Spark
5.6.1 Spark简介
5.6.2 Spark与Hadoop差异
5.6.3 Spark适用场景
5.6.4 Spark运行模式
5.6.5 Spark常用术语