本文实例讲述了Java使用正则表达式获取子文本的方法。分享给大家供大家参考,具体如下:
原来,group是针对()来说的,group(0)就是指的整个串,group(1) 指的是第一个括号里的东西,group(2)指的第二个括号里的东西。
最近学习正则表达式,发现Java中的一些术语与其他地方描述的有所差异。就这个问题卡了我半天,坑爹,写到博客,方便其他新学的朋友。比如Java正则表达式中的“组”概念与《正则表达式必知必会》一书中讲述的“子表达式”其实是一样的,只是表述不同而已。由此也引发了使用JavaAPI时对group(int group)
、start(int group)
、end(int group)
不是太理解。
程序如下
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
package cn.mingyuan.regexp.singlecharacter; import java.util.regex.Matcher; import java.util.regex.Pattern; public class GroupIndexAndStartEndIndexTest { /** * @param args */ public static void main(String[] args) { // TODO Auto-generated method stub String str = "Hello,World! in Java." ; Pattern pattern = Pattern.compile( "W(or)(ld!)" ); Matcher matcher = pattern.matcher(str); while (matcher.find()){ System.out.println( "Group 0:" +matcher.group( 0 )); //得到第0组——整个匹配 System.out.println( "Group 1:" +matcher.group( 1 )); //得到第一组匹配——与(or)匹配的 System.out.println( "Group 2:" +matcher.group( 2 )); //得到第二组匹配——与(ld!)匹配的,组也就是子表达式 System.out.println( "Start 0:" +matcher.start( 0 )+ " End 0:" +matcher.end( 0 )); //总匹配的索引 System.out.println( "Start 1:" +matcher.start( 1 )+ " End 1:" +matcher.end( 1 )); //第一组匹配的索引 System.out.println( "Start 2:" +matcher.start( 2 )+ " End 2:" +matcher.end( 2 )); //第二组匹配的索引 System.out.println(str.substring(matcher.start( 0 ),matcher.end( 1 ))); //从总匹配开始索引到第1组匹配的结束索引之间子串——Wor } } } |
程序的运行结果为:
1
2
3
4
5
6
7
|
Group 0 :World! Group 1 :or Group 2 :ld! Start 0 : 6 End 0 : 12 Start 1 : 7 End 1 : 9 Start 2 : 9 End 2 : 12 Wor |
总结:其实group(),start(),end()所带的参数i就是正则表达式中的子表达式索引(第几个子表达式),由于刚开始对Java正则表达式中的组的概念不清晰,导致理解困难。当将“组”的概念与“子表达式”对应起来之后,理解matcher的group,start,end就完全没有障碍了。
希望本文所述对大家java程序设计有所帮助。
原文链接:http://blog.csdn.net/dackwind/article/details/48738971