正则表达式入门知识摘要

前端之家收集整理的这篇文章主要介绍了正则表达式入门知识摘要前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

注意:本文中除了正则表达式的开头结尾的“/”,其他都应改为“\”

正则表达式在不同的环境下的有些方面的表现是不相同的, .Net Framework 2.0下正则表达式的测试工具Regex Tester是个绿色软件。其他可用的测试工具有RegexBuddyJavascript正则表达式在线测试工具

元字符

表1.常用的元字符
代码 说明
. 小数点可以匹配除了换行符(/n)以外的任意一个字符
/w 匹配任意一个字母或数字或下划线,也就是 A~Z,a~z,0~9,_ 中任意一个
/s 匹配任意的空白符,包括空格、制表符、换页符等空白字符的其中任意一个
/d 匹配任意一个数字,0~9 中的任意一个
/b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束

例子:

@H_403_131@/ba/w*/b匹配以字母a开头的单词——先是某个单词开始处(/b),然后是字母a,然后是任意数量的字母或数字(/w*),最后是单词结束处(/b)

好吧,现在我们说说正则表达式里的单词是什么意思吧:就是不少于一个的连续的/w。不错,这与学习英文时要背的成千上万个同名的东西的确关系不大 :)

@H_403_131@/d+匹配1个或更多连续的数字。这里的+是和*类似的元字符,不同的是*匹配重复任意次(可能是0次),而+则匹配重复1次或更多次

@H_403_131@/b/w{6}/b 匹配刚好6个字符的单词。比如一个网站如果要求你填写的QQ号必须为5位到12位数字时,可以使用:@H_403_131@^/d{5,12}$

字符转义

@H_403_131@查找.和*需要使用 /.和@H_403_131@/*。要查找/本身,你也得用@H_403_131@//.

重复

表2.常用的限定符
代码/语法 说明
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

一些常见的使用重复的例子:

@H_403_131@Windows/d+匹配Windows后面跟1个或更多数字

@H_403_131@^/w+匹配一行的第一个单词(或整个字符串的第一个单词,具体匹配哪个意思得看选项设置)

字符类

很简单,你只需要在方括号里列出它们就行了,像@H_403_131@[aeIoU]就匹配任何一个英文元音字母,@H_403_131@[.?!]匹配标点符号(.或?或!)

我们也可以轻松地指定一个字符范围,像@H_403_131@[0-9]代表的含意与@H_403_131@/d就是完全一致的:一位数字;同理@H_403_131@[a-z0-9A-Z_]也完全等同于/w(如果只考虑英文的话)。

下面是一个更复杂的表达式:@H_403_131@/(?0/d{2}[) -]?/d{8}

“(”和“)”也是元字符,后面的分组节里会提到,所以在这里需要使用转义

这个表达式可以匹配几种格式的电话号码,像(010)88886666,或022-22334455,或02912345678等。我们对它进行一些分析吧:首先是一个转义字符/(,它能出现0次或1次(?),然后是一个0,后面跟着2个数字(/d{2}),然后是)-空格中的一个,它出现1次或不出现(?),最后是8个数字(/d{8})。

分支条件

正则表达式里的分枝条件指的是有几种规则,如果满足其中任意一种规则都应该当成匹配,具体方法是用|把不同的规则分隔开。看例子:

@H_403_131@0/d{2}-/d{8}|0/d{3}-/d{7}这个表达式能匹配两种以连字号分隔的电话号码:一种是三位区号,8位本地号(如010-12345678),一种是4位区号,7位本地号(0376-2233445)

分组

我们已经提到了怎么重复单个字符(直接在字符后面加上限定符就行了);但如果想要重复多个字符又该怎么办?你可以用小括号来指定子表达式(也叫做分组),然后你就可以指定这个子表达式的重复次数了,你也可以对子表达式进行其它一些操作(后面会有介绍)。

@H_403_131@(/d{1,3}/.){3}/d{1,3}是一个简单的IP地址匹配表达式。要理解这个表达式,请按下列顺序分析它:/d{1,3}匹配1到3位的数字(/d{1,3}/.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次,最后再加上一个一到三位的数字(/d{1,3})。

不幸的是,它也将匹配256.300.888.999这种不可能存在的IP地址。如果能使用算术比较的话,或许能简单地解决这个问题,但是正则表达式中并不提供关于数学的任何功能,所以只能使用冗长的分组,选择,字符类来描述一个正确的IP地址:@H_403_131@((2[0-4]/d|25[0-5]|[01]?/d/d?)/.){3}(2[0-4]/d|25[0-5]|[01]?/d/d?)

反义

有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外,其它任意字符都行的情况,这时需要用到反义

表3.常用的反义代码
代码/语法 说明
/W 匹配任意不是字母,数字,下划线,汉字的字符
/S 匹配任意不是空白符的字符
/D 匹配任意非数字的字符
/B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeIoU] 匹配除了aeIoU这几个字母以外的任意字符

例子:@H_403_131@/S+匹配不包含空白符的字符串

@H_403_131@<a[^>]+>匹配用尖括号括起来的以a开头的字符串

贪婪与懒惰

当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。以这个表达式为例:@H_403_131@a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。

有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样@H_403_131@.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧:

@H_403_131@a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)ab(第四到第五个字符)

为什么第一个匹配是aab(第一到第三个字符)而不是ab(第二到第三个字符)?简单地说,因为正则表达式有另一条规则,比懒惰/贪婪规则的优先级更高:最先开始的匹配拥有最高的优先权——The match that begins earliest wins。

表5.懒惰限定符
代码/语法 说明
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复

详细参考deerchao的《正则表达式30分钟入门教程》http://www.unibetter.com/deerchao/zhengzhe-biaodashi-jiaocheng-se.htm

猜你在找的正则表达式相关文章