大数据技术导论
上QQ阅读APP看书,第一时间看更新

3.3.2 缺失值和异常数据

(1)缺失值

对于缺失值的处理一般是想方设法把它补上,或者干脆弃之不用。一般处理方法有忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的中心度量填充缺失值、使用与给定元组属同一类的所有样本的属性均值或中位数、使用最可能的值填充缺失值。

(2)异常数据

异常数据,即异常值(离群点),是指测量数据中的随机错误或偏差造成其偏离均值的孤立点。在数据处理中,异常值会极大地影响回归或分类的效果。