最近写的一个数据采集程序生成了一个含有1千多万行数据的文件,数据由4个字段组成,按照要求需要删除第二个字段重复的行,找来找去linux下也没找到合适的工具,sed/gawk等流处理工具只能针对一行一行处理,并无法找到字段重复的行。看来只好自己python一个程序了,突然想起来利用mysql,于是进行乾坤大挪移:
1. 利用mysqlimport --local dbname data.txt导入数据到表中,表名要与文件名一致
2. 执行下列sql语句(要求唯一的字段为uniqfield)
Linux下删除大数据文件中部分字段重复行的方法
2019-11-14 16:04Linux教程网 Linux
找来找去linux下也没找到合适的工具,sed/gawk等流处理工具只能针对一行一行处理,并无法找到字段重复的行。看来只好自己python一个程序了,突然想起来利用mysql,于是进行乾坤大挪移
延伸 · 阅读
- 2024-11-03晨报:《龙腾4》Steam“多半好评” 《Apex》不再支
- 2022-03-11在Linux下通过命令行打包Android应用的方法
- 2022-03-10这个 Linux 图形计算器让数学很有趣
- 2022-03-10聊聊HBase海量数据高效入仓解决方案
- 2022-03-10Linux下部署springboot项目的方法步骤
- 2022-03-10linux中把.c的文件编译成.so文件
- Linux
深入理解Linux修改hostname(推荐)
这篇文章主要介绍了深入理解Linux修改hostname(推荐),具有一定的参考价值,有兴趣的可以了解一下。...
- Linux
Linux crontab 命令的使用
这篇文章主要介绍了Linux crontab 命令的使用,帮助大家更好的理解和学习Linux系统,感兴趣的朋友可以了解下...
- Linux
Linux怎么设置环境变量
本文主要讲解如何在Linux系统中设置环境变量。当您在Linux命令行上键入命令时,您实际是在告诉shell运行指定名称的可执行文件。在Linux中,这些可执行程...
- Linux
在Linux系统下更改桌面分辨率的方法
这篇文章主要介绍了在Linux系统下更改桌面分辨率的方法,需要的朋友可以参考下 ...
- Linux
终端基础:Linux 终端中的目录切换
Linux 的 cd 命令让你可以轻松切换文件夹(即目录)。只需提供你要切换到的文件夹路径即可。 cd path_to_directory 然而对于 Linux 新人来说,可能会在路径的指...
- Linux
记一次生产线系统磁盘扩容的步骤之超详细的lvm步骤
数据库负责人反馈ogg同步中断,监控告警触发系统磁盘空间不足,需尽快扩容。下面介绍扩容的详细步骤。...
- Linux
linux查找可执行文件的方法
这篇文章主要介绍了linux查找可执行文件的方法,需要的朋友可以参考下 ...
- Linux
Linux平台下生成C语言数据结构关系图
作为一名Linux系统下的C语言开发,经常需要阅读源码,但是有些源码实在是难以阅读,各种庞大的结构体交杂,分分钟把你绕晕,让你头昏眼花,迟迟无法...