脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服务器之家 - 脚本之家 - Python - pandas中DataFrame检测重复值的实现

pandas中DataFrame检测重复值的实现

2021-11-14 10:24乘风破浪的熊爸 Python

本文主要介绍了pandas DataFrame检测重复值,主要包括了检查整行整列的检测,以及多列是否重复,需要的朋友们下面随着小编来一起学习学习吧

本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重

?
1
DataFrame.duplicated(subset=None, keep='first')

subset:如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

  • 默认为'first' ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
  • 如果为'last',也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
  • 如果为False,则所有重复的为True

下面举例

?
1
2
3
4
5
6
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
df

pandas中DataFrame检测重复值的实现

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
# 默认为keep="first",第一条重复的为False,后面重复的为True
# 一般不会设置keep,保持keep为默认值。
df.duplicated()
 
结果
0    False
1     True
2    False
3    False
4    False
dtype: bool
 
# keep="last",,最后一条重复的为False,后面重复的为True
df.duplicated(keep="last")
 
结果
0     True
1    False
2    False
3    False
4    False
dtype: bool
 
# keep=False,,所有重复的为True
df.duplicated(keep=False)
 
结果
0     True
1     True
2    False
3    False
4    False
dtype: bool
 
# sub是子,subset是子集
# 标记只要brand重复为重复值。
df.duplicated(subset='brand')
 
结果
 
0    False
1     True
2    False
3     True
4     True
dtype: bool
 
 
# 只要brand重复brand和style重复的为重复值。
df.duplicated(subset=['brand','style'])
 
结果
 
0    False
1     True
2    False
3    False
4     True
dtype: bool
 
 
# 显示重复记录,通过布尔索引
df[df.duplicated()]

pandas中DataFrame检测重复值的实现

?
1
2
3
4
5
# 查询重复值的个数。
df.duplicated().sum()
 
结果
1

到此这篇关于pandas中DataFrame检测重复值的实现的文章就介绍到这了,更多相关pandas DataFrame检测重复值内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!

原文链接:https://blog.csdn.net/zilongxuan008/article/details/117256659

延伸 · 阅读

精彩推荐