正则表达式之<四>使用元字符

1.元字符是一些在正则表达式中有着特殊含义的字符。

也就是说这些字符是无法代表它们本身的，如果想表式它们本身就必须经过转义。
任何一个元字符都可以通过给他加上 反斜杠字符(\)作为前缀的办法来转义。
举例:
在需要匹配 \本身的时候，我们必须把它转义为 \\

2.匹配空白字符

元字符分两种：
（1）一种用于匹配文本的（比如‘.’）
（2）另一种用于正则表达式的语法所要求的（比如‘[’和‘]’）

[\b]     回退一个字符
\f       换页符
\n       换行符
\r       回车符
\t       制表符
\v       垂直制表符

3、匹配特定的字符类别

一些常用的字符集合可以使用特殊字符来代替
（1）匹配数字（与非数字）

\d 相当于[0-9]，匹配任何一个数字
\D 相当于[^0-9]，匹配任何一个非数字

（2）匹配字母和数字（与非字母和数字）

\w相当于[A-Za-z0-9_]，匹配任何一个字母数字字符或下划线字符
\W 相当于[^A-Za-z0-9_]，匹配任何一个非字母数字字符或非下划线字符

（3）匹配空白字符（与非空白字符）

\s相当于[\f\n\r\t\v]，匹配任何一个空白字符
\S 相当于[^\f\n\r\t\v]，匹配任何一个非空白字符

4、元字符分为”贪婪型“与”懒惰型“两种
贪婪型：
当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符

考虑这个表达式：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。

懒惰型:
我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧：
a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）。

eg:
文本：
This offer is not availiable to customers
living in AK and HI.
or or ak

正则：
<Bb>.*</Bb>

匹配结果:（贪婪型）注意看颜色表示匹配程度。

正则：
<Bb>.*?</Bb>
匹配结果:（懒惰型）

懒惰限定符
代码     /    语法说明
*?	 重复任意次，但尽可能少重复
+?	 重复1次或更多次，但尽可能少重复
??	 重复0次或1次，但尽可能少重复
{n,m}?	 重复n到m次，但尽可能少重复
{n,}?	 重复n次以上，但尽可能少重复

5、常用元字符表

代码	说明
.	匹配除换行符以外的任意字符
\w	匹配字母或数字或下划线或汉字
\s	匹配任意的空白符
\d	匹配数字
\b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束

常用的反义代码
代码/语法	说明
\W	匹配任意不是字母，数字，下划线，汉字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非数字的字符
\B	匹配不是单词开头或结束的位置
[^x]	匹配除了x以外的任意字符
[^aeIoU]匹配除了aeIoU这几个字母以外的任意字符

正则表达式之<四>使用元字符

猜你在找的正则表达式相关文章