正则表达式 - 语法之限定符
限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有*或+或?或{n}或{n,}或{n,m}共6种。
正则表达式的限定符有:
字符 |
描述 |
* |
匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。 |
+ |
匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。 |
? |
匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。 |
{n} |
n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。 |
{n,} |
n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。 |
{n,m} |
m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。 |
*、+和?限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。
例如,有如下文本:
<li><a>123</a>|<a>321</a></li> \n <li><a>456</a>|<a>654</a></li>
表达式/<.*>/匹配从开始小于符号 (<) 到关闭标记的大于符号 (>) 之间的所有内容。
如果需要匹配每个标记,就是"非贪心"表达式/<.*?>/。
通过在 *、+ 或 ? 限定符之后放置 ?,该表达式从"贪心"表达式转换为"非贪心"表达式或者最小匹配。
package javay.regex; import java.util.regex.Matcher; import java.util.regex.Pattern; public class RM5_1 { public static void main(String[] args) { int flag = 0; int i =0; // flag |= Pattern.UNICODE_CHARACTER_CLASS; // \\u // flag |= Pattern.UNICODE_CASE; flag |= Pattern.DOTALL; // 点匹配任意字符 // flag |= Pattern.MULTILINE; flag |= Pattern.UNIX_LINES; // // flag |= Pattern.CASE_INSENSITIVE; // 忽略大小 // 按指定模式在字符串查找 String line = "<li><a>123</a>|<a>321</a></li> \n <li><a>456</a>|<a>654</a></li>"; String pattern = "<.*?>"; // 创建 Pattern 对象 Pattern r = Pattern.compile(pattern,flag); System.out.println(" pattern(): " + r.pattern()); // 创建 matcher 对象 Matcher m = r.matcher(line); if (m.find( )) { do { System.out.println(" groupCount: " + m.groupCount()); for (i = 0; i <= m.groupCount(); i ++) { System.out.println("Found value: " + m.group(i) ); } System.out.println(" start(): " + m.start()); System.out.println(" end(): " + m.end()); } while(m.find( )); } else { System.out.println("NO MATCH"); } } }
回首往事---->正则表达式 - 语法之特殊字符
回首往事---->正则表达式 - 语法之定位符