Page 103 - 高中 信息技术 选择性必修3 数据管理分析
P. 103
4.2 数据处理
3.噪声数据的处理
噪声数据是指数据中存在着错误或异常(偏离期望值)的数据。数据分析工具都有
寻找噪声数据的函数,函数通过寻找数据集中与其他观测值及均值差距最大的点作为异
常值。
在进行噪声数据检查后,不可以直接使用删除方式处理异常值,因为有可能孤
立点的数据正是实验要找出的异常数据。在实际操作中常用分箱(binning)、回归
(regression)、聚类(clustering)、计算机与人工检查相结合等方法“光滑”数据,去掉
数据中的噪声。
(1)分箱。
分箱是指通过对数据进行排序,利用数据“近邻”(即周围的值)来光滑有序数据值的
广东教育出版社
一种局部光滑方法。在分箱方法中,可以使用箱均值、箱中位数或箱边界等进行光滑。对于
用箱均值或箱中位数光滑,可以使用平均值或中位数代替箱中的噪声数据;而对于箱边界平
滑,将给定箱中最大值或最小值视为箱边界,箱中的噪声数据被替换为最近边界值。
Python中cut函数使用数值区间将数值分箱,用在长度相等的桶;qcut使用分位数将数
值分箱,用在大小相等的桶。
(2)回归。
通过回归函数拟合数据来光滑数据。回归包括线性回归和多元回归。线性回归涉及找
出拟合两个变量的“最佳”直线,使得一个属性数据预测另一个数据。如图4-8所示,建
立线性回归方程y=ax+b,通过体重预测得到身高的值。
图4-8 线性回归处理噪声数据
(3)聚类。
通过聚类识别噪声数据后,考察噪声在各个属性上的值与其期望之间的距离以判
定引起噪声的属性,利用所属分类中噪声属性上的值对噪声数据进行矫正,如图4-9所
示,将数据组织成3簇,落在簇集合之外的值视为离群点,可以使用与属性相近的数据
进行平滑。
95 95
; JOEE