Page 102 - 高中 信息技术 选择性必修3 数据管理分析
P. 102

第四章  数据分析







                      量来换取信息完整性的方法,适用于缺失值所占比例较小的情况;删除变量适用于该变量中
                      有较多缺失且对研究目标影响不大的情况,通过dropna(axis=1)来实现整个变量的删除。
                           (2)替换法。

                           变量按属性可分为数值型和非数值型,二者的处理办法不同:如果缺失值所在变量为
                      数值型,一般用该变量在其他所有对象的取值的均值来替换变量的缺失值;如果为非数值
                      型变量,则使用该变量其他全部有效观测值的中位数或者众数进行替换。
                           (3)插补法。

                           删除法虽然简单易行,但会带来数据资源浪费和改变数据结构的问题,因此在条件允
                      许的情况下,找到缺失值的替代值来进行插补,尽可能还原真实数据是更好的方法。简单

                      的插补法可以采取前后的数据值、变量均值、中位数等其中之一来代替缺失值。
                               探究活动广东教育出版社
                           缺失值处理用到的主要工具为 Numpy 库和 Pandas库中的有关函数,表4-2中列出处理
                      缺失数据的相关函数。


                                                      表4-2  处理缺失数据的相关函数

                                函数名称                                           使用说明
                         isnull(  )                   是缺失值返回True,否则返回False。
                         isnull(  ).sum(  )           返回每列包含的缺失值的个数。
                         dropna(  )                   删除含有缺失值的行。

                         dropna(axis=1)               删除含有缺失值的列。
                         dropna(how='all')            删除全是缺失值的行。
                         dropna(thresh=4)             保留至少有4个缺失值的行。
                         fillna('?')                  使用“?”替代缺失值。
                         fillna(method='pad')         用前一个数据值替代缺失值。
                         fillna(method='bfill')       用后一个数据值替代缺失值。
                         fillna(df.mean(  ))          用平均数替代缺失值。









                           实 践


                           导入教科书配套学习资源包“第四章\课本素材\test4-2.xlsx”文件,寻找其中的缺失

                      值,并使用中位数替代身高字段中的缺失值,关键程序代码如下:


                           fileNameStr=(r' 第四章\课本素材\test4-2.xlsx')

                           xls=pd.ExcelFile(fileNameStr)
                           Df=xls.parse('Sheet1')
                           Df

                           Df.fillna(Df.median())
              94  94







          5Z343.indd   94                                                                                           2019/4/1   10:05:49
   97   98   99   100   101   102   103   104   105   106   107