先说一下这个可疑的ip,58.63.144.170,据说是一个弱智的蜘蛛,上帝保佑它下地狱。
看过apache日志的朋友应该知道,apache的访问日志的每一行是以访问者的ip开始的。因为日志比较大,所以我是用ultraedit来看的。用ultraedit的时候需要注意,它的正则一共有两种,一种是符合perl规范的,而默认的是ut自带的一种,写法比较特殊。本文中用到的正则表达式都是perl兼容的,ut中这个选项可以在“高级->配置->搜索->正则表达式引擎”中进行修改。
经过一番思索,发现自己掌握的正则表达式中好象没有能直接删除“不包含”一个指定串的用法。思前想后,先写一个包含指定串的再说吧:^(58.63.144.170).*$,测试一下,可以把包含指定ip的行找出来,接下来要做的就是怎么把这些行保留下来而删除另外的行。在尝试了N次以后,我终于放弃了直接删除不包含这个ip的行的想法。怎么办呢?退一步海阔天空!既然不能直接删除,那就迂回一下吧。虽然不能直接删除不包含指定串的行,但删除不包含指定字符的正则我还是会写的:)
先给包含指定ip的行做个标志,这里要用到ut的替换功能。要查找的行:^(58.63.144.170)(.*)。因为日志的每一行都是以数字开始的,所以我选择‘%'做为标志的特殊符号,要替换成的正则为:%$1$2。全部替换以后,包含指定ip的行就变成了这个样子:%58.63.144.170……。接下来,我们再把行首不是‘%'的行删掉,查找:^[^%].*,替换处为空。执行全部替换,日志中只剩下了以‘58.63.144.170'开头的行,大功告成!等等,剩下的空行太难看,让我们把它们干掉,查找:^[\r\n]*$,替换处为空,执行全部替换,世界终于清静了...
其实本文中用的正则都是很基本的东西,虽然最终没能写出删除包含指定字符串的行的正则,但在迂回中最终也是现实了想要的功能,而且看上去也更清晰一些。有时候退一步未必不是一个更好的选择。
用正则删除不包含某个字符串的行的代码
2020-07-26 17:21ANQUYE200 正则表达式
这个需求发生在分析apache日志的时候。在日志中发现了一个比较可疑的ip,出现频率颇高,但每天的日志有几百万行,如何从中几百万行中找出需要的数据来进行分析呢?
延伸 · 阅读
- 2022-03-11C语言实现将double/float 转为字符串(带自定义精度
- 2022-03-11Python全栈之字符串和列表相关操作
- 2022-03-10Python全栈之路正则函数
- 2022-03-09Linux删除目录下的文件的10种方法小结
- 2022-03-08SQL删除重复的电子邮箱力扣题目解答流程
- 2022-03-08pandas如何删除没有列名的列浅析
- 正则表达式
php与javascript正则匹配中文的方法分析
这篇文章主要介绍了php与javascript正则匹配中文的方法,结合实例形式分析了针对utf-8与GBK编码情况下的php、javascript正则匹配中文操作技巧,需要的朋友可以参...
- 正则表达式
PHP 正则 email语句详解
PHP正则校验email的代码相信好好学过PHP的人都应该知道下面这段用于eamil校验的语句,但是真正能看懂的就不多了。...
- 正则表达式
DW 查找某字符串前的所有字符的正则表达式
我使用DW 这个所见所得的编辑器来写html时,喜欢写上注释,如 等等的注释,在一次比较大的改动时,需要批量查找替换,为了批量操作,于是...
- 正则表达式
正则替换实现输入框只能有数字、中英文逗号
最近在开发过程中,需要一个输入框里面只能有数字与中英文逗号,因为是相关文章,其它的也不让出现,容易造成问题,编程容易把介绍复制到里面,所...
- 正则表达式
PHP匹配多行的正则表达式分析
PHP匹配多行的正则表达式分析,需要的朋友可以参考下,多用于采集替换等。...
- 正则表达式
UBB代码在论坛中的应用
UBB代码是HTML的一个变种。一般情况下,UBB论坛不允许你使用HTML代码,而只能用UBB代码替代HTML代码。...
- 正则表达式
JavaScript 正则表达式验证函数代码
上篇文章《JavaScript验证正则表达式大全》说的是javascript中使用的正则表达式的例子,但是没有说这些正则表达式如何使用,现在给大家几个例子,大家可...
- 正则表达式
谈谈我对正则表达式的认识
正则表达式(Regular Expression)是一个概念,一种语法、句法的约定。每一种具体的语句(C#,Java,JavaScript)有其对于正则表达式的具体实现,并且会有差别。...