使用SQL语句去掉重复的记录【两种方法】_Sql Server

使用SQL语句去掉重复的记录【两种方法】

2020-05-26 15:17deng214 Sql Server

这篇文章主要介绍了用SQL语句去掉重复的记录的两种方式，两种方式都可以使用临时表操作，具体实现方法大家跟随脚本之家小编一起通过本文学习吧

海量数据（百万以上），其中有些全部字段都相同，有些部分字段相同，怎样高效去除重复？

如果要删除手机(mobilePhone)，电话(officePhone)，邮件(email)同时都相同的数据，以前一直使用这条语句进行去重：

				?

									delete from 表 where id not in

									(select max(id) from 表 group by mobilePhone,officePhone,email )  

									or

									delete from 表 where id not in

									 (select min(id) from 表 group by mobilePhone,officePhone,email ) 

									delete from 表 where id not in

									(select max(id) from 表 group by mobilePhone,officePhone,email ) 

									or

									delete from 表 where id not in

									 (select min(id) from 表 group by mobilePhone,officePhone,email )

其中下面这条会稍快些。上面这条数据对于100万以内的数据效率还可以，重复数1/5的情况下几分钟到几十分钟不等，但是如果数据量达到300万以上，效率骤降，如果重复数据再多点的话，常常会几十小时跑不完，有时候会锁表跑一夜都跑不完。无奈只得重新寻找新的可行方法，今天终于有所收获：

				?

									//查询出唯一数据的ID,并把他们导入临时表tmp中  

									select min(id) as mid into tmp from 表 group by mobilePhone,officePhone,email  

									 //查询出去重后的数据并插入finally表中  

									insert into finally select (除ID以外的字段) from customers_1 where id in (select mid from tmp) 

									//查询出唯一数据的ID,并把他们导入临时表tmp中 

									select min(id) as mid into tmp from 表 group by mobilePhone,officePhone,email 

									 //查询出去重后的数据并插入finally表中 

									insert into finally select (除ID以外的字段) from customers_1 where id in (select mid from tmp)

效率对比：用delete方法对500万数据去重（1/2重复）约4小时。4小时，很长的时间。

用临时表插入对500万数据去重（1/2重复）不到10分钟。

其实用删除方式是比较慢的，可能是边找边删除的原因吧，而使用临时表，可以将没有重复的数据ID选出来放在临时表里，再将表的信息按临时表的选择出来的ID，将它们找出来插入到新的表，然后将原表删除，这样就可以快速去重啦。

SQL语句去掉重复记录，获取重复记录

按照某几个字段名称查找表中存在这几个字段的重复数据并按照插入的时间先后进行删除，条件取决于order by 和row_num。

方法一按照多条件重复处理：

				?

									delete tmp from(  

									select row_num = row_number() over(partition by 字段，字段 order by 时间 desc)  

									 from 表 where 时间> getdate()-1  

									 ) tmp  

									 where row_num > 1 

									delete tmp from( 

									select row_num = row_number() over(partition by 字段，字段 order by 时间 desc) 

									 from 表 where 时间> getdate()-1 

									 ) tmp 

									 where row_num > 1

方法二按照单一条件进行去重：

				?

									delete from 表 where 主键ID not in(  

									select max(主键ID) from 表 group by 需要去重的字段 having count(需要去重的字段)>=1  

									 ) 

									delete from 表 where 主键ID not in( 

									select max(主键ID) from 表 group by 需要去重的字段 having count(需要去重的字段)>=1 

									 )

注意：为提高效率如上两个方法都可以使用临时表， not in 中的表可以先提取临时表#tmp，

然后采用not exists来执行，为避免数量过大，可批量用Top控制删除量

				?

									delete top(2) from 表  

									   where not exists (select 主键ID  

									 from #tmp where #tmp.主键ID=表.主键ID)

总结

以上所述是小编给大家介绍的使用SQL语句去掉重复的记录，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对服务器之家网站的支持！

原文链接：https://blog.csdn.net/deng214/article/details/80430109

使用SQL语句去掉重复的记录【两种方法】

延伸 · 阅读

三种SQL分页查询的存储过程代码

SQLServer2005 批量查询自定义对象脚本

SQLServer 数据库的数据汇总完全解析(WITH ROLLUP)

SQL_Server全文索引的用法解析

深入SQLServer中ISNULL与NULLIF的使用详解

SQLServer2005创建定时作业任务

SQL JOIN 连接详细介绍及简单使用实例

SQL2005 存储过程解密方法

云服务器是什么，云主机干什么用的？

2020最新好用的web服务器软件推荐

服务器操作系统有哪些?

web服务器配置（图文详解）

企业如何选择阿里云服务器配置?

五大免费主机管理系统优缺点对比及推荐

2019最新三款Windows下连接Linux的ssh软件下载推荐

服务器常用管理软件盘点

Nginx服务器究竟是怎么执行PHP项目