为什么数据预处理?

了解数据质量,有些数据质量不足以直接使用,如包含过多的缺失值,需要进行缺失值处理数据字段不能够直接使用,需要派生新的字段,以更好的进行进一步的数据挖掘数据分散,需要将数据进行整合,例如追加表增加行,或者合并表增加列,通过数据的预处理能够很好的对数据有初步的认识和理解。

所以数据预处理是数据分析和数据挖掘的基础数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程数据预处理是指在主要的处理以前对数据进行的一些处理数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

可以降低数据大小,通过归约,可以建立好的样本集,因为脏数据的存在,需要预处理 单位不一致,比如,身高17米,体重120斤,那么17和120不在一个数量级上,导致17的权重被淹没 有时候需要降维,降低运算量,有时需要升维,达到线性可分,这些都是预处理的方面。