Page 102 - 高中 信息技术 选择性必修3 数据管理分析
P. 102
第四章 数据分析
量来换取信息完整性的方法,适用于缺失值所占比例较小的情况;删除变量适用于该变量中
有较多缺失且对研究目标影响不大的情况,通过dropna(axis=1)来实现整个变量的删除。
(2)替换法。
变量按属性可分为数值型和非数值型,二者的处理办法不同:如果缺失值所在变量为
数值型,一般用该变量在其他所有对象的取值的均值来替换变量的缺失值;如果为非数值
型变量,则使用该变量其他全部有效观测值的中位数或者众数进行替换。
(3)插补法。
删除法虽然简单易行,但会带来数据资源浪费和改变数据结构的问题,因此在条件允
许的情况下,找到缺失值的替代值来进行插补,尽可能还原真实数据是更好的方法。简单
的插补法可以采取前后的数据值、变量均值、中位数等其中之一来代替缺失值。
探究活动广东教育出版社
缺失值处理用到的主要工具为 Numpy 库和 Pandas库中的有关函数,表4-2中列出处理
缺失数据的相关函数。
表4-2 处理缺失数据的相关函数
函数名称 使用说明
isnull( ) 是缺失值返回True,否则返回False。
isnull( ).sum( ) 返回每列包含的缺失值的个数。
dropna( ) 删除含有缺失值的行。
dropna(axis=1) 删除含有缺失值的列。
dropna(how='all') 删除全是缺失值的行。
dropna(thresh=4) 保留至少有4个缺失值的行。
fillna('?') 使用“?”替代缺失值。
fillna(method='pad') 用前一个数据值替代缺失值。
fillna(method='bfill') 用后一个数据值替代缺失值。
fillna(df.mean( )) 用平均数替代缺失值。
实 践
导入教科书配套学习资源包“第四章\课本素材\test4-2.xlsx”文件,寻找其中的缺失
值,并使用中位数替代身高字段中的缺失值,关键程序代码如下:
fileNameStr=(r' 第四章\课本素材\test4-2.xlsx')
xls=pd.ExcelFile(fileNameStr)
Df=xls.parse('Sheet1')
Df
Df.fillna(Df.median())
94 94
5Z343.indd 94 2019/4/1 10:05:49