数据预处理
- 一般而言,数据分析和数据挖掘领域的处理的数据都是海量的数据,这样的数据难免会出现问题。
- 数据预处理占到数据挖掘工作的60%,这是最重要也是最核心的领域,
- 分为数据清洗、数据集成、数据变换和数据规约。
数据清洗
- 删除无关数据、重复数据、平滑噪声数据、处理缺失值和异常值。
- 缺失值处理
- 插补
- 删除
- 在数据量很少的情况下,这是利用数据为代价换取完备,是不合理的。
- 插值模型
- 拉格朗日插值法(scipy实现)
- 牛顿插值法(scipy未实现)
- 异常值处理
数据集成
数据变换
- 规范化处理数据,便于使用。
- 简单函数变换
- 常用来将不具有正态分布的数据变换成具有正态分布的数据。
- 规范化
- 最小-最大规范化
- 零-均值规范化(使用最多)
- 小数定标规范化
- 连续属性离散化
- 属性构造
- 小波变换
数据规约
相关库函数的使用,可以查看我的博客
-
2026-05-19栏目: 教程
-
2026-05-19栏目: 教程
-
2026-05-19栏目: 教程
-
2026-05-19栏目: 教程
-
2026-05-19栏目: 教程
-
2026-04-23栏目: 教程
-
2026-04-23栏目: 教程
-
2026-04-23栏目: 教程
-
2026-04-23栏目: 教程
-
2026-04-24栏目: 教程