浅谈通过正则表达式查找字符串

经常需要在文本中，查找某个子串是否存在。需求其实很简单，但每次去翻很长很长的正则表达式教程，都觉得特别吐血。因此特此做下记录：针对我这种简单需求，如何写正则表达式呢？

需求：在文本中查找一段字符串，这段字符串其实是一个图片链接

文本：

<div class=\"attachmentList\"><ul class=\"attachments\"><li><a href=\"/WebObjects/test.woa/wo/13.0.0.7.3.0.9.3.1.1.1.0.13.1.1.11.1.9.0.1.0.17.0.15.1.0.1\">Screenshot_0.jpg</a></li></ul></div>

该文本中，满足条件的字符串：

<a href=\"/WebObjects/test.woa/wo/13.0.0.7.3.0.9.3.1.1.1.0.13.1.1.11.1.9.0.1.0.17.0.15.1.0.1\">Screenshot_0.jpg</a>

图片链接，其实就是以"<a href="开头，中间是其他字符串，以"jpg</a>"结尾（也可能是其他图片格式）。

因此，对应的正则就是：

具体来讲，这段正则表示了：

<a href=

将其放在正则的开头，因此是以<a href=开头

点号(.)表示匹配除换行符以外的任意字符 ,+号表示点号所代表的字符，会重复一次或更多次

[png|jpg|bmp|gif]

表示可以是png,jpg,bmp,gif中其中的一个

</a>

将其放在末尾，表示以</a>做结尾

总结的说，针对查找子串的种需求，正则表达式就是：开头字符串.+结尾字符串

其他：

1、常用的元字符

代码	说明
.	匹配除换行符以外的任意字符
\w	匹配字母或数字或下划线或汉字
\s	匹配任意的空白符
\d	匹配数字
\b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束

2、常用的限定符

代码/语法	说明
*	重复零次或更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

3、关于^,$元字符：一开始，我对^的含义理解错了，以为对于本文的例子，就应该用^<a表示用<a开头，后来才发现，^是表示文本应该以^表示的字符串开头。例如，如果文本是1abcde,那么正则^abcd是匹配不到这个文本的，因为文本是以1开头的，这时候要^1abcde才能匹配到“1abcde”这个文本。因此^,$更常见于，我们要判断某段字符串是否是符合标准，例如希望字符串是纯数字，那么整段字符串，就应该是以数字开头，以数字结尾，因此对应的正则就是^[0-9]*$，不通过该段正则检验的，就不是纯数字串

4、更多请见 http://deerchao.net/tutorials/regex/regex.htm

浅谈通过正则表达式查找字符串

猜你在找的正则表达式相关文章