摘要:以引号""为例来介绍如何使用正则匹配。
例一:
import java.util.regex.Matcher; import java.util.regex.Pattern; public class RegexTest { public static void main(String[] args) { String regEx = "\"(.+)\""; String source = "The name \"McDon ald's\" is said \"markudonarudo\" in Japanese"; Pattern pattern = Pattern.compile(regEx); Matcher matcher = pattern.matcher(source); while (matcher.find()) { String result = matcher.group(0); System.out.println(result); } } }
"McDon ald's" is said "markudonarudo"
例二:
import java.util.regex.Matcher; import java.util.regex.Pattern; public class RegexTest { public static void main(String[] args) { String regEx = "\"([^\"]+)\""; String source = "The name \"McDon ald's\" is said \"markudonarudo\" in Japanese"; Pattern pattern = Pattern.compile(regEx); Matcher matcher = pattern.matcher(source); while (matcher.find()) { String result = matcher.group(0); System.out.println(result); } } }
返回结果:
"McDon ald's" "markudonarudo"
其实我想要的结果是第二种,区别是第二种我是用的是排除型字符组 [^],而第一种使用的是 .+。那么我们接着使用 .+ 来分析。
因为.可以匹配任意字符,[^\"] 只能匹配非引号(")之外的任意字符,加上正则的贪婪性,就一直往后匹配到结尾, 又由于结束符是一个引号("),所以匹配的结尾是不满足条件的,再往前一个字符一个字符的移动,直到匹配到引号("),所以就得到了例一的结果。
那么如何让它不贪婪而达到例二的效果呢,请看例三。
例三:
import java.util.regex.Matcher; import java.util.regex.Pattern; public class RegexTest { public static void main(String[] args) { String regEx = "\"(.+?)\""; String source = "The name \"McDon ald's\" is said \"markudonarudo\" in Japanese"; Pattern pattern = Pattern.compile(regEx); Matcher matcher = pattern.matcher(source); while (matcher.find()) { String result = matcher.group(0); System.out.println(result); } } }
返回结果:
"McDon ald's" "markudonarudo"
现在看起来例三和例二的结果一样了。这次使用了懒惰模式,使用了?,就把贪婪模式变为懒惰模式,顾名思义,就是能接受就结束,可以把贪婪模式理解为从第一个匹配位置开始的逆向匹配,而懒惰模式可以理解为从第一个匹配位置开始的正向匹配,就是找到能匹配到的末尾引号(")就结束。
情景故事:
.+?的意思是在匹配的前提下,尽可能少的匹配,怎么样理解尽可能少,如此例中,.+?本来可以像上一个例子中,匹配一大串,但是由于后面有个?总是催促:“你匹配好了没有,该我了吧?”,所以,.+心理很烦,变得很懒了,在第一“收尾的时候就停下来了,这样就得到了正确的结果。
例四:
import java.util.regex.Matcher; import java.util.regex.Pattern; public class RegexTest { public static void main(String[] args) { String regEx = "(?<=\")(.+?)(?=\")"; String source = "The name \"McDon ald's\" is said \"markudonarudo\" in Japanese"; Pattern pattern = Pattern.compile(regEx); Matcher matcher = pattern.matcher(source); while (matcher.find()) { String result = matcher.group(0); System.out.println(result); } } }
返回结果:
McDon ald's is said markudonarudo
这种情况就是出现了环视,两个一号之间的都匹配出来了,这次来分析一下这个正则表达式。
1. ?单独使用就成了最好匹配一次,即使不匹配也可以的元字符,所以懒惰的用法应该是紧跟着贪婪元字符的后面
2.(?<=")代表这个位置的左边必须有一个" ,既然正则不会占用" ,它只需要左边是 " 右边是什么它不会管,这样我们可以认为它占用了一个什么都不是的缝隙位置,这个缝隙位置只有一个要求就是左边是 "。
3.(?=\")的意思是占用两个字符之间的缝隙位置,缝隙位置的右边是"。
由于环视都不会占用字符,而缝隙只是理解,并不存在真正的缝隙,这样匹配结束后的位置只是到达s 和 "之间的位置,下一次匹配的时候就会把 " 也匹配上。
例五:
import java.util.regex.Matcher; import java.util.regex.Pattern; public class RegexTest { public static void main(String[] args) { String regEx = "\"((?!\").)+\""; String source = "The name \"McDon ald's\" is said \"markudonarudo\" in Japanese"; Pattern pattern = Pattern.compile(regEx); Matcher matcher = pattern.matcher(source); while (matcher.find()) { String result = matcher.group(0); System.out.println(result); } } }
运行结果:
"McDon ald's" "markudonarudo"
例四是环视, 例五就排除环视。
1. (?!\").的意思是一个位置的右边不能是" ,然后后面接了一个.,就是说.表示的其他字符都行,就是不能是"。