Linux下删除大数据文件中部分字段重复行的方法

2019-11-14 16:04Linux教程网 Linux

找来找去linux下也没找到合适的工具，sed/gawk等流处理工具只能针对一行一行处理，并无法找到字段重复的行。看来只好自己python一个程序了，突然想起来利用mysql，于是进行乾坤大挪移

最近写的一个数据采集程序生成了一个含有1千多万行数据的文件，数据由4个字段组成，按照要求需要删除第二个字段重复的行，找来找去linux下也没找到合适的工具，sed/gawk等流处理工具只能针对一行一行处理，并无法找到字段重复的行。看来只好自己python一个程序了，突然想起来利用mysql，于是进行乾坤大挪移：

1. 利用mysqlimport --local dbname data.txt导入数据到表中，表名要与文件名一致
2. 执行下列sql语句(要求唯一的字段为uniqfield）

复制代码

代码如下:

use dbname;
alter table tablename add rowid int auto_increment not null;
create table t select min(rowid) as rowid from tablename group by uniqfield;
create table t2 select tablename .* from tablename,t where tablename.rowid= t.rowid;
drop table tablename;
rename table t2 to tablename;

Linux

大数据

删除

重复行

延伸 · 阅读

2024-11-03晨报：《龙腾4》Steam“多半好评” 《Apex》不再支
2022-03-11在Linux下通过命令行打包Android应用的方法
2022-03-10这个 Linux 图形计算器让数学很有趣
2022-03-10聊聊HBase海量数据高效入仓解决方案
2022-03-10Linux下部署springboot项目的方法步骤
2022-03-10linux中把.c的文件编译成.so文件

精彩推荐

Linux

Linux命令学习总结：详解reboot命令

这篇文章主要介绍了Linux命令学习总结：详解reboot命令，这个指令使用起来非常简单,有兴趣的可以了解一下。...

潇湘隐者9262021-12-03
Linux

Linux基础：如何找出你的系统所支持的最大内存

这篇文章主要介绍了Linux基础：如何找出你的系统所支持的最大内存,需要的朋友可以参考下...

Linux教程网12962021-10-25
Linux

linux下时间同步的两种方法分享

在需要集中记录服务器日志的环境中，时间同步那是相当的重要的。本文为大家介绍两种同步linux时间的方法，供大家参考 ...

Linux教程网6312019-12-10
Linux

在Linux系统上安装配置DNS服务器的教程

这篇文章主要介绍了在Linux上安装配置DNS服务器的教程,文中示例基于CentOS系统,需要的朋友可以参考下...

51CTO6832019-07-03
Linux

linux下gettimeofday函数windows替换方法(详解)

下面小编就为大家带来一篇linux下gettimeofday函数windows替换方法(详解)。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看...

Linux教程网7612021-12-15
Linux

Linux下查看使用的是哪种shell的方法汇总

这篇文章主要介绍了Linux下查看使用的是哪种shell的方法汇总,本文总结了9种查看当前系统使用的是哪种shell的方法,需要的朋友可以参考下 ...

Linux技术网9282019-10-25
Linux

Linux 将支持基于 Li-Fi 的新型网络技术

据 phoronix 报道，Li-Fi 技术供应商 PureLiFi 近来正在向 Linux 内核社区积极贡献代码，以推动将其开源的 Li-Fi 驱动程序并入 Linux 内核主线。...

开源中国4602020-12-09
Linux

致命的7个Linux命令

如果你是一个 Linux 新手，在好奇心的驱使下，可能会去尝试从各个渠道获得的命令。以下是 7 个致命的 Linux 命令，轻则使你的数据造成丢失，重则使你的...

Linux教程网10082021-10-08