Python数据分析之缺失值检测与处理详解_Python

Python数据分析之缺失值检测与处理详解

2022-03-11 10:18Dream丶Killer Python

在实际的数据处理中，缺失值是普遍存在的，如何使用 Python 检测和处理缺失值，就是本文要讲的主要内容。感兴趣的同学可以关注一下

检测缺失值

我们先创建一个带有缺失值的数据框(DataFrame)。

import pandas as pd

df = pd.DataFrame(
  {'A': [None, 2, None, 4],
   'B': [10, None, None, 40], 
   'C': [100, 200, None, 400],
   'D': [None, 2000, 3000, None]})
df

Python数据分析之缺失值检测与处理详解

数值类缺失值在 Pandas 中被显示为 NaN (Not A Number)。下面看看如何判断哪些列或者哪些行有缺失值。

1.info()

Python数据分析之缺失值检测与处理详解

info() 返回的结果中，我们只需要观察每一列对应的 Non-Null Count 的数量是否等于 RangeIndex(索引范围) 即可。

2.isnull()

isnull() 返回一个与原 DataFrame 大小(列数，行数)相同的数据框，行列对应的数据代表着该位置是否为缺失值。

df.isnull()

Python数据分析之缺失值检测与处理详解

使用 sum() 来检测每列中的缺失值的数量。

df.isnull().sum()

Python数据分析之缺失值检测与处理详解

通过 .T 将 DataFrame 转置，获取检测每行中缺失值的数量。

df.isnull().T.sum()

Python数据分析之缺失值检测与处理详解

缺失值处理

删除缺失值

如果出现缺失值的行/列重要性不大的话，可以直接使用 dropna() 删除带有缺失值的行/列。

df.dropna(axis=0,
        how='any',
        thresh=None,
        subset=None,
        inplace=False)

参数含义

axis：控制行列的参数，0 行，1 列。
how：any，如果有 NaN，删除该行或列；all，如果所有值都是 NaN，删除该行或列。
thresh：指定 NaN 的数量，当 NaN 数量达到才删除。
subset：要考虑的数据范围，如：删除缺失行，就用subset指定参考的列，默认是所有列。
inplace：是否修改原数据，True直接修改原数据,返回 None，False则返回处理后的数据框。

指定 axis = 1，如果列中有缺失值，则删除该列。

df.dropna(axis=1, how='any')

Python数据分析之缺失值检测与处理详解

由于每列都有缺失值，所以只剩索引。

指定 axis = 0（默认），如果行中有缺失值，则删除该行。

df.dropna(axis=0, how='any')

Python数据分析之缺失值检测与处理详解

以 ABC 列为参照，删除这三列都是缺失值的行。

df.dropna(axis=0, subset=['A', 'B', 'C'], how='all')

Python数据分析之缺失值检测与处理详解

保留至少有3个非NaN值的行。

df.dropna(axis=0, thresh=3)

Python数据分析之缺失值检测与处理详解

填补缺失值

另一种常见的缺失值处理方式就是使用 fillna() 填补缺失值。

df.fillna(value=None,
        method=None,
        axis=0,
        inplace=False,
        limit=None)

1. 直接指定填充值

df.fillna(666)

Python数据分析之缺失值检测与处理详解

2.用缺失值前/后的值填充

按前一个值填充

当method 值为 ffill 或 pad时，按前一个值进行填充。

当 axis = 0，用缺失值同一列的上一个值填充，如果缺失值在第一行则不填充。

当 axis = 1，用缺失值同一行的上一个值填充，如果缺失值在第一列则不填充。

df.fillna(axis=0, method='pad')

Python数据分析之缺失值检测与处理详解

按后一个值填充

当method 值为 backfill 或 bfill时，按后一个值进行填充。

当 axis = 0，用缺失值同一列的下一个值填充，如果缺失值在最后一行则不填充。

当 axis = 1，用缺失值同一行的下一个值填充，如果缺失值在最后一列则不填充。

df.fillna(axis=0, method='bfill')

Python数据分析之缺失值检测与处理详解

指定相应的方法来填充

df.fillna(df.mean())

Python数据分析之缺失值检测与处理详解

limit限制填充次数

在ABCD列上，每列只填充第一个空值。

df.fillna(value=666, axis=1, limit=1)

Python数据分析之缺失值检测与处理详解

以上就是Python 数据分析之缺失值检测与处理详解的详细内容，更多关于Python 缺失值检测处理的资料请关注服务器之家其它相关文章！

原文链接：https://blog.csdn.net/qq_43965708/article/details/121297449

Python数据分析之缺失值检测与处理详解

检测缺失值

缺失值处理

删除缺失值

填补缺失值

延伸 · 阅读

在Windows系统上搭建Nginx+Python+MySQL环境的教程

Python的dict字典结构操作方法学习笔记

Python实现ping指定IP的示例

python 列表转为字典的两个小方法(小结)

python直接访问私有属性的简单方法

使用NumPy和pandas对CSV文件进行写操作的实例

python 插入Null值数据到Postgresql的操作

Python3以GitHub为例来实现模拟登录和爬取的实例讲解

PyCharm设置SSH远程调试的方法

Python安装图文教程 Pycharm安装教程

python是什么意思？python有什么用？

使用Python抓取模板之家的CSS模板

Python 列表(List)操作方法详解