日常机器学习(二十三)线性预测回归实例——缺失值处理
使用missingno中的包,可以画出缺失值的位置: 白色的位置表示缺失值位置。(详情可以参见https://github.com/ResidentMario/missingno) pd.isnull()可以显示数据中缺失的那一部分,代入到原数据中,就可以显示出缺失的那一部分的数据值。 对于缺失的数据如何填补,我们可以先画该数据的累积分布函数(ECDF函数可以画累积分布函数,详情package参照第二十二篇)或柱状分布函数来看看该数据的具体分布。 groupby()函数可以根据括号中的选项来对原数据进行分类 transform函数可以替换原数据中的缺失值。 可以看到在'Sepal.Width'中原来的缺失值使用'setosa'这一类的平均值来替换掉。
评论
发表评论