正则表达式-贪婪与非贪婪匹配

+贪婪匹配与非贪婪匹配

贪婪匹配
默认情况下，正则表达式使用最长匹配原则（也叫贪婪匹配原则）。
例如：要将"zoom"中匹配"zo?"的部分替换成"r",替换的的结果是"rom"。如果要将"zoom"中匹配"zo*" 的部分替换成"r",替换后的结果是"rm"。

非贪婪匹配
当字符？紧随其他限定符（*、+、？、{n}、{n,}、{n,m}）之后时，匹配模式变成了最短匹配原则（也叫非贪婪匹配原则）。
例如：在字符串"fooood"中，"fo+?"只匹配"fo"部分，而"fo+"匹配"foooo部分。

当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。以这个表达式为例：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。

有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧：

a.*?b 匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab和ab。

PS: 附上一个在线正则表达式网站以备用http://tool.oschina.net/regex#

可能有不少的人和我一样，有过这样的经历：当我们要匹配类似 "<td>内容</td>" 或者 "[b]加粗[/b]" 这样的文本时，我们根据正向预搜索功能写出这样的表达式："<td>([^<]|<(?!/td>))*</td>" 或者 "<td>((?!</td>).)*</td>"。

当发现非贪婪匹配之时，恍然大悟，同样功能的表达式可以写得如此简单："<td>.*?</td>"。顿时间如获至宝，凡是按边界匹配的地方，尽量使用简捷的非贪婪匹配 ".*?"。特别是对于复杂的表达式来说，采用非贪婪匹配 ".*?" 写出来的表达式的确是简练了许多。

猜你在找的正则表达式相关文章