正则表达式学习笔记（三）

后向引用

说明后向引用的之前，先对分组进行更一步的学习。

前面说过，用小括号括起来就是一个分组，或者叫子表达式，但是，其实分组并不是表面那么简单，有如下几条：

（1）分组其实是有组号的。

从左到右，第一个分组组号为1，第二个组号为2，依次递增，分组0则对应整个正则表达式。

（2）分组的组号分配是有规则的。

实际上组号分配过程是从左往右扫两遍：第一遍给未命名组分配，第二遍只给命名组分配，这样导致的结果就是所有命名组的组号大于为命名组的组号。

（3）分组的组号分配这个权利是可以被剥夺的。

怎么剥夺？使用(?:exp)这样的语法。

说完了分组，有个疑问，分组还要弄组号这是做什么？还搞的这么麻烦。

答案就是，分组的组号是可以在正则表达式中使用的，比如说为了这个后向引用。

举个例子：如果你想要重复搜索前面某个分组匹配的文本怎么办？难道又重新写一遍分组？这里，就可以使用后向引用了。

请看例子：\b(\w+)\b\s+\1\b

这个表达式可以这样分解：

\b(\w+)\b \s+ \1\b

可以看到:我们要匹配的字符串是一个单词（至少一个字符），中间有至少有一个空白符，然后\1表示组号，即重复前面那个分组表示的单词。

这个正则表达式可以用来搜寻什么move move之类的。

再来重复一次后向引用：用于重复搜索前面出现的某个分组。

关于分组的组名，这里在多说几句。一个分组的组名是可以人为命名的。

使用语法：(?<word>\w+)，

把尖括号改成’也可以(?’word’\w+)，这样\w+分组的组名就是word了。

要是想要后向引用这个分组匹配的文本怎么办？

可以使用\k<word>，例如：将\b(\w+)\b\s+\1\b写成\b(?<Word>\w+)\b\s+\k<Word>\b。

小括号这个元字符的作用很多，与之相关的语法小结一下：

分类	语法	详解
捕获	(exp)	分组
	(?<name>exp)	分组到名为“name“的分组里，与<?’name’exp>同
	(?:exp)	匹配exp，但是不捕获该文本，也不分配组号
零宽断言	(?=exp)	匹配exp前面的位置
	(?<=exp)	匹配exp后面的位置
	(?!exp)	匹配后面跟着的不是exp的位置
	(?<!exp)	匹配前面不是exp的位置
注释	(?#comment)	注释

零宽断言

解释下上述表里面的零宽断言部分的四条语法。

相信已经从表里面读到了，零宽断言是用来查找某些内容之前或者之后的东西，他们指定了一个位置，这个位置应该满足一定的条件（断言）。下面依次解释：

（1）(?=exp)

叫做零宽度正预测先行断言。

举例：\b\w+(?=ing\b)

解析：匹配以ing结尾的单词的文本并捕获出来，不包括ing。

（2）(?<=exp)

叫做零宽度正回顾后发断言。

举例：(?<=\bre)\w+\b

解析：匹配以re开头的单词的后部分，不包括re。

（3）(?!exp)

叫做零宽度负预测先行断言。

举例：\d{3}(?!\d)

解析：匹配3个数字，但是3个数字后面不能是数字。

（4）(?<!exp)

叫做零宽度负回顾后发断言。

举例：(?<![a-z])\d{7}

解析：前面不是小写字母的7个数字。

3和4项都属于负向零宽断言。

这里看一个复杂的正则表达式：

举例：(?<=<(\w+)>).*(?=<\/\1>)

解析：匹配不包含属性的简单HTML标签内里的内容。

(<?(\w+)>)指定了这样的前缀：被尖括号括起来的单词(比如可能是)，然后是.*(任意的字符串)，最后是一个后缀(?=<\/\1>)。注意后缀里的\/，它用到了前面提过的字符转义；\1则是一个反向引用，引用的正是捕获的第一组，前面的(\w+)匹配的内容，这样如果前缀实际上是的话，后缀就是了。整个表达式匹配的是和 之间的内容(再次提醒，不包括前缀和后缀本身)。这个例子就是第一个语法和第二个语法的结合。

注释

注释的语法我们已经知道：(?#comment)，可以插入到正则表达式的任一个位置。唯一需要说明的是，使用注释的时候，最好能够启用“忽略模式里的空白符“，这样在写注释的时候就可以换行了。

处理选项

处理选项，在PHP里面即是模式修饰符，作用就是设定模式。也就是规定了正则表达式如何解释和应用。不同的语言这个处理选项是不同的，这里主要说一说PHP里面的主要的模式。

修饰符	表达式写法	详解
I	(?i)…(?-i)、(?i:..)	忽略大小写模式
M	(?m)…(?-m)、(?m:..)	多文本模式，即字符串内有多个换行符，影响^$作用
s	(?s)…(?-s)、(?s:..)	但文本模式，在此模式下，元字符点.可以匹配换行符
X	(?x)…(?-x)、(?x:..)	忽略空白字符

模式修饰符既可以写在正则表达式的外面，也可以写在表达式内。

例如：

忽略大小写：

贪婪和懒惰

正则表达式里面有重复选择的元字符，例如*等，包含了这种玩意的正则表达式往往会匹配尽可能多的字符，这被称作贪婪匹配。

例如：a.*c

面对acacaac这样的字符串，返回的结果是acacaac，而不会是ac或者aac。

与上面相反，假设要是想要匹配尽量少的字符，这就被称作为懒惰。

举例：根据前面的a.*c，在.*后面加上？。

即为：a.*?c

另外，根据上图，有点需要说明的是，懒惰和贪婪的规则优先级屈尊与这一条规则之下：最先开始的匹配拥有最高的优先权。所以在上面字符串acacaac的后面三个字符串aac共同构成了一个捕获文本，而不是ac（即倒数一二个）。

下面总结下懒惰限定符作用在重复次数上的作用：

语法	详解
*?	重复任意次，但是尽可能少。
+?	重复一次或者更多，但是尽可能少。
??	重复0次到1次，尽可能少。
{n,m}?	重复n到m次，尽可能少。
{n,}?	重复n次，尽可能少。

正则表达式学习笔记（三）

猜你在找的正则表达式相关文章