短匹配应用于:假如有一段文本,你只想匹配最短的可能,而不是最长。
例子
比如有一段html片段,如何匹配出每个a标签中的内容,下面来看下最短与最长的区别。
<a>刘德华</a> <a>成龙</a>
最短匹配代码
>>> import re >>> a_str = '<a>刘德华</a><a>成龙</a>' >>> print re.findall(r'<a>(.*?)</a>', a_str ) # 最短匹配 ['刘德华', '成龙']
正常匹配
>>> print re.findall(r'<a>(.*)</a>', str) ['刘德华</a><a>成龙']
解释
知识点:正则中“*”、“+”这两个都属于贪婪匹配模式,“?”属于非贪婪匹配模式。
例子中,模式r'(.*)',因为*是贪婪模式,结果会尽可能的往后匹配,因为会得到正常匹配的结果。
模式r'(.*?)'的意图是匹配被和包含的文本,在*操作符后面加上?操作符,这样使得匹配变成非贪婪模式,从而得到最短匹配。