由于需要在半结构化的文本数据中提取一些特定格式的字段、数据辅助挖掘分析工作,以往都是使用Matlab工具进行结构化数据处理的建模,matlab擅长矩阵处理、结构化数据的计算,Python具有与matlab共同的特点:语法简洁、库丰富,对算法仿真来说都是一门简洁易用的语言。
Python做字符串匹配相对来说上手比较容易,且具有成熟的字符串处理库re供我们使用;
在re库的帮助下,只需简单的两步就可完成匹配工作,对做数据分析/算法的工作者来说,轻松了许多:
step1:构建正则表达式模式,并使用compile()函数生产正则表达式对象
step2:调用step1生成的正在表达式对象的方法、属性,返回匹配结果
1
2
3
4
5
6
7
8
9
10
11
|
<span style = "color:#333300;" ># 导入正则表达式匹配模块 Py 3.0 import re text = "today is 01/04/2015, happy new year..." #建立日期的正则表达式 detepat = re. compile ( '(\d+)/(\d+)/(\d+)' ) #进行匹配并打印结果 result = detepat.finditer(text) for m in result: print (m.group())< / span> |
感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!
原文链接:http://blog.csdn.net/zbc1090549839/article/details/42400979