Page 103 - 高中 信息技术 选择性必修3 数据管理分析
P. 103

 4.2 数据处理







                         3.噪声数据的处理
                         噪声数据是指数据中存在着错误或异常(偏离期望值)的数据。数据分析工具都有
                    寻找噪声数据的函数,函数通过寻找数据集中与其他观测值及均值差距最大的点作为异

                    常值。
                         在进行噪声数据检查后,不可以直接使用删除方式处理异常值,因为有可能孤
                    立点的数据正是实验要找出的异常数据。在实际操作中常用分箱(binning)、回归
                    (regression)、聚类(clustering)、计算机与人工检查相结合等方法“光滑”数据,去掉

                    数据中的噪声。
                         (1)分箱。

                         分箱是指通过对数据进行排序,利用数据“近邻”(即周围的值)来光滑有序数据值的
                                             广东教育出版社
                    一种局部光滑方法。在分箱方法中,可以使用箱均值、箱中位数或箱边界等进行光滑。对于
                    用箱均值或箱中位数光滑,可以使用平均值或中位数代替箱中的噪声数据;而对于箱边界平
                    滑,将给定箱中最大值或最小值视为箱边界,箱中的噪声数据被替换为最近边界值。

                         Python中cut函数使用数值区间将数值分箱,用在长度相等的桶;qcut使用分位数将数
                    值分箱,用在大小相等的桶。
                         (2)回归。

                         通过回归函数拟合数据来光滑数据。回归包括线性回归和多元回归。线性回归涉及找
                    出拟合两个变量的“最佳”直线,使得一个属性数据预测另一个数据。如图4-8所示,建
                    立线性回归方程y=ax+b,通过体重预测得到身高的值。


























                                                     图4-8  线性回归处理噪声数据


                         (3)聚类。

                         通过聚类识别噪声数据后,考察噪声在各个属性上的值与其期望之间的距离以判
                    定引起噪声的属性,利用所属分类中噪声属性上的值对噪声数据进行矫正,如图4-9所
                    示,将数据组织成3簇,落在簇集合之外的值视为离群点,可以使用与属性相近的数据

                    进行平滑。


                                                                                                                    95 95







           ;    JOEE
   98   99   100   101   102   103   104   105   106   107   108