pandas中DataFrame检测重复值的实现_Python

pandas中DataFrame检测重复值的实现

2021-11-14 10:24乘风破浪的熊爸 Python

本文主要介绍了pandas DataFrame检测重复值，主要包括了检查整行整列的检测，以及多列是否重复，需要的朋友们下面随着小编来一起学习学习吧

本文详解如何使用pandas查看dataframe的重复数据，判断是否重复，以及如何去重

				?

									DataFrame.duplicated(subset=None, keep='first')

subset：如果你认为几个字段重复，则数据重复，就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

默认为'first' ,也就是如果有重复数据，则第一条出现的定义为False，后面的重复数据为True。
如果为'last'，也就是如果有重复数据，则最后一条出现的定义为False，后面的重复数据为True。
如果为False，则所有重复的为True

下面举例

				?

									df = pd.DataFrame({

									    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],

									    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],

									    'rating': [4, 4, 3.5, 15, 5]

									})

									df

pandas中DataFrame检测重复值的实现

				?

									# 默认为keep="first",第一条重复的为False,后面重复的为True

									# 一般不会设置keep，保持keep为默认值。

									df.duplicated()

									结果

									0    False

									1     True

									2    False

									3    False

									4    False

									dtype: bool

									# keep="last",,最后一条重复的为False,后面重复的为True

									df.duplicated(keep="last")

									结果

									0     True

									1    False

									2    False

									3    False

									4    False

									dtype: bool

									# keep=False,,所有重复的为True

									df.duplicated(keep=False)

									结果

									0     True

									1     True

									2    False

									3    False

									4    False

									dtype: bool

									# sub是子，subset是子集

									# 标记只要brand重复为重复值。

									df.duplicated(subset='brand')

									结果

									0    False

									1     True

									2    False

									3     True

									4     True

									dtype: bool

									# 只要brand重复brand和style重复的为重复值。

									df.duplicated(subset=['brand','style'])

									结果

									0    False

									1     True

									2    False

									3    False

									4     True

									dtype: bool

									# 显示重复记录，通过布尔索引

									df[df.duplicated()]

pandas中DataFrame检测重复值的实现

				?

									# 查询重复值的个数。

									df.duplicated().sum()

									结果

									1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家！

原文链接：https://blog.csdn.net/zilongxuan008/article/details/117256659

pandas中DataFrame检测重复值的实现

延伸 · 阅读

python 插入Null值数据到Postgresql的操作

Python实现ping指定IP的示例

Python的dict字典结构操作方法学习笔记

python直接访问私有属性的简单方法

python 列表转为字典的两个小方法(小结)

Python3以GitHub为例来实现模拟登录和爬取的实例讲解

在Windows系统上搭建Nginx+Python+MySQL环境的教程

使用NumPy和pandas对CSV文件进行写操作的实例

PyCharm设置SSH远程调试的方法

Python安装图文教程 Pycharm安装教程

python是什么意思？python有什么用？

使用Python抓取模板之家的CSS模板

Python 列表(List)操作方法详解