Page 101 - 高中 信息技术 选择性必修3 数据管理分析
P. 101
4.2 数据处理
程序运行后,查看“d:\第四章\课本素材”文件夹下生成的“test4-1-1.xls”文件。
项目实施
各小组根据项目选题及拟订的项目方案,并结合本节所学知识,了解相关的数据分析
方法与工具,完成项目分析的数据准备工作。
1.讨论并体验数据分析方法与工具。
2.体验数据导入与导出的操作。
广东教育出版社
4.2 数据处理
在数据采集过程中,由于数据的设备可能出现故障,数据输入以及数据传输的过程中
可能出现错误,存储介质有可能出现损坏等,导致需要用于数据分析的数据可能不完整、
包含错误值或者数据内涵不一致等情况。在数据分析前需要对数据进行处理,剔除其中噪
声、恢复数据的完整性和一致性后才能进行数据分析。
4.2.1 数据清洗
1.重复数据的处理
数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等来检
测记录是否相等,相等的记录合并为一条记录。合并、清除是处理重复数据的基本方法。
使用duplicated( )可以获取哪些是重复的元素,使用drop_duplicates( )能够删除重复
元素。
2.缺失数据的处理
缺失值是数据中经常出现的问题,也是任何数据采集过程中可能出现的问题,如阅卷
中无回答、回答错误、录入错误等现象都会导致缺失数据。缺失值会影响分析工作的进
行,还会导致分析的偏差。
缺失值的处理包括两个步骤,即缺失数据的识别和缺失值处理。Python中缺失值通常
以NaN表示,可以使用函数isnull( )判断缺失值是否存在。缺失值处理常用的方法有删除
法、替换法、插补法等。
(1)删除法。
删除法是最简单的缺失值处理方法,根据数据处理的不同角度可分为删除观测样本、删
除变量两种。在Python中可通过dropna( )函数移除所有含有缺失数据的行,这属于以减少样本
93 93
; JOEE