数据预处理
00 分钟
2023-9-12
重复值通过excel查找一般进行删除处理。

缺失值

考察缺失率(缺失行数占总行数比率)
1.缺失率在5%以内:
若缺失数据项占比较少(缺失行数占总行数大概5%以内),若题目条件允许可直接删除缺失行。
 
2.缺失率稍高(5%-20%)
选用常数填充方法。
常数填充可用均值、中位数、众数插值补充(具体题目具体分析)。
也可用固定值插补(固定值根据题目搜集资料确定)
 
3.缺失率高(20%-40%)
需要用到预测回归方法填补。、
插值模型:
1、线性插值:直接用线性函数插值拟合(一般带时间序列的数据可用)
notion image
2、多项式插值:
n个数据用n次多项式构建插值函数。
缺点:
  1. 随着多项式的阶数越来越高,计算量也越来越大。
  1. 随着多项式的阶数越来越高,插值精度并不会越来越高,恰恰相反,函数曲线会出现剧烈的振荡,即,龙格现象
三次样条插值:采用分段三次函数进行插值。总结:三次样条插值就是把已知数据分割成若干段,每段构造一个三次函数,并且保证每段三次函数的衔接处具有0阶连续,一阶导数连续,二阶导数连续的性质(也就是光滑衔接)。(有代码)
notion image
 
分段埃尔米特插值:
notion image
notion image
 
拉格朗日插值:
每加一个新数据进去需要重新计算公式,计算比较复杂。
notion image
牛顿插值:
拉格朗日插值的升级,可用于多个缺失值的插值。
notion image
 
4.缺失率很高(大于50%)
视情况可直接删除这一列指标。(见机行事)
 
以上方法均要对照当时的情况而定。
 

异常值

异常值识别

1.根据常理即可剔除的噪声数据,如身高血压为0。
2.利用正态分布的3σ原则
数据符合正态分布或者经过一定数据变幻后基本符合正态分布,这时可用正态分布的3σ原则找到异常值。
3.画箱线图的方法:
箱线图是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法。箱线图无需对数据进行正态分布要求。适用范围广。
notion image
数据多维时可画散点图寻找异常值
notion image
 
4.定量分析寻找噪音数据:
notion image
notion image
notion image
p和d人为给出。
 

异常值处理

1.删除异常值
2.视为缺失值进行缺失值处理
3.平均值修正:用前后数据的平均值修正
4.不处理
 

数据规约

1.min-max规约:将数据变换到0-1之间。
2.标准差规约:用均值和标准差进行过规约。
notion image
3.用一些函数对数据进行变换使数据符合挖掘或算法需要。
4.主成分分析法等对数据进行降维处理(记得对降维后数据进行文字解释)

评论
Loading...