Page 101 - 高中 信息技术 选择性必修3 数据管理分析
P. 101

 4.2 数据处理







                         程序运行后,查看“d:\第四章\课本素材”文件夹下生成的“test4-1-1.xls”文件。


                             项目实施



                         各小组根据项目选题及拟订的项目方案,并结合本节所学知识,了解相关的数据分析
                    方法与工具,完成项目分析的数据准备工作。
                         1.讨论并体验数据分析方法与工具。

                         2.体验数据导入与导出的操作。



                                             广东教育出版社
                       4.2              数据处理








                         在数据采集过程中,由于数据的设备可能出现故障,数据输入以及数据传输的过程中

                    可能出现错误,存储介质有可能出现损坏等,导致需要用于数据分析的数据可能不完整、
                    包含错误值或者数据内涵不一致等情况。在数据分析前需要对数据进行处理,剔除其中噪
                    声、恢复数据的完整性和一致性后才能进行数据分析。




                      4.2.1  数据清洗




                         1.重复数据的处理
                         数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等来检
                    测记录是否相等,相等的记录合并为一条记录。合并、清除是处理重复数据的基本方法。

                         使用duplicated(  )可以获取哪些是重复的元素,使用drop_duplicates(  )能够删除重复
                    元素。
                         2.缺失数据的处理
                         缺失值是数据中经常出现的问题,也是任何数据采集过程中可能出现的问题,如阅卷

                    中无回答、回答错误、录入错误等现象都会导致缺失数据。缺失值会影响分析工作的进
                    行,还会导致分析的偏差。

                         缺失值的处理包括两个步骤,即缺失数据的识别和缺失值处理。Python中缺失值通常
                    以NaN表示,可以使用函数isnull(  )判断缺失值是否存在。缺失值处理常用的方法有删除
                    法、替换法、插补法等。
                         (1)删除法。

                         删除法是最简单的缺失值处理方法,根据数据处理的不同角度可分为删除观测样本、删
                    除变量两种。在Python中可通过dropna(  )函数移除所有含有缺失数据的行,这属于以减少样本

                                                                                                                    93 93







           ;    JOEE
   96   97   98   99   100   101   102   103   104   105   106