大数据技术导论
上QQ阅读APP看书,第一时间看更新

习题3

一、填空题

【1】ETL是英文( )的缩写。

【2】( )负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为为联机分析处理、数据挖掘提供决策支持的数据。

【3】( )是指从传感器和其他待测设备等模拟和数字被测单元中自动采集信息的过程。

【4】( )是通过分析“脏数据”产生的原因和存在形式,利用现有的技术手段和方法去清理“脏数据”,将“脏数据”转化为满足数据质量或应用要求的数据,从而提高数据集的数据质量。

二、单选题

【1】在ETL三个部分中,花费时间最长的是( )的部分。

A.E

B.T

C.L

D.以上全部

【2】数据按数据抽象程度分,( )不在其中。

A.内容

B.元数据

C.数据对象

D.价值

【3】从数据的加工程度对数据进行了分类,以下不属于该分类的是( )。

A.信息和价值

B.裸数据

C.半结构化数据

D.专家数据

【4】按( )分,把数据采集分类为静态数据采集、低频数据采集和高频数据采集。

A.数据结构

B.采集频率

C.内容

D.采集方式

【5】按( )分,把数据采集分类为定时采集和实时采集。

A.数据结构

B.采集频率

C.内容

D.采集方式

【6】按( )分,把数据采集分类为结构化数据采集、半结构化数据采集和非结构化数据采集。

A.数据结构

B.采集频率

C.内容

D.采集方式

【7】数据采集工具不包括( )。

A.Flume

B.Kafka

C.HBase

D.Sqoop

【8】关于缺失数据处理,( )是不合适的。

A.当缺失数据较多时直接删除相应样本

B.对缺失数据进行插补

C.多重插补法

D.决策树

三、判断题

【1】当缺失数据较少时直接删除相应样本(删除缺失数据样本,其前提是缺失数据的比例较少,而且缺失数据是随机出现的,这样删除缺失数据后对分析结果影响不大)。

【2】异常值(离群点)是指测量数据中的随机错误或偏差造成其偏离均值的孤立点。在数据处理中,异常值不会极大地影响回归或分类的效果。

【3】所谓数据的中心化是指数据集中的各项数据减去数据集的方差。