正则表达式(regular expression,简称regex)是一种工具。
正则表达式的两种基本用途:查找和替换。
.字符(英文句号)可以匹配任何一个单个的字符。(.字符可以匹配任何单个的字符、数字、字母,甚至是.字符本身。)
\转义字符,这是一个元字符(Metacharacter,表示这个字符有特殊含义,而不是字符本身含义。)
(总结:.可以匹配任意字符;\用来对字符进行转义。)
[和]不匹配任何字符,它们只负责定义一个字符集合。
-连字符,这是一个元字符,可以用来定义字符区间,作为一个元字符它只能用在[和]之间,在字符集合意外的地方,-只是一个普通字符。
合法的字符区间:
A-Z,匹配从A到Z的所有大些字母;
a-z,匹配从a到z的所有小写字母;
A-z,匹配从ASCII字符A到ASCII字母z的所有字母(不常用);
^取非字符也是元字符,用来对一个字符集合进行取非操作。
元字符大致可以分为两种:一种是用来匹配文本的(例如.),另一种是正则表达式语法所要求的(例如[和])。
//2015.02.17
空白元字符:
[\b] |
回退(并删除)一个字符(Backspace键) |
\f |
换页符 |
\n |
换行符 |
\r |
回车符 |
\t |
制表符(Tab键) |
\v |
垂直制表符 |
数字元字符:
\d |
任何一个数字字符(等价于[0-9]) |
\D |
任何一个非数字字符(等价于[^0-9]) |
字母数字元字符:
\w |
任何一个字母数字字符(大小写均可)或下划线字符(等价于[a-zA-Z0-9_]) |
\W |
任何一个非字母数字或非下划线字符(等价于[^a-zA-Z0-9_]) |
空白字符元字符:
\s |
任何一个空白字符(等价于[\f\n\r\t\v]) |
\S |
任何一个非空白字符(等价于[^\f\n\r\t\v]) |
+匹配一个或多个字符的一次或多次出现(至少一个;不匹配零个字符的情况)。
*匹配一个或多个字符的零次或多次出现。
?匹配一个或多个字符的零次或一次出现。
{n}为重复匹配次数设置一个精确的值(例{3}表示前一个字符或字符集合必须连续出现3次)。
{n,m}为重复匹配次数设定一个区间(例{2,4}表示前一个字符或字符集合最少连续出现2次,最多4次,{3,}表示前一个字符或字符集合至少出现3次)。
贪婪型元字符和它们的懒惰版本:
* |
*? |
+ |
+? |
{n,} |
{n,}? |
(总结:正则表达式的真正威力体现在重复次数匹配方面。+匹配字符或字符集合的一次或多次重复出现、*匹配字符或字符集合的零次或多次重复出现、?匹配字符或字符集合的零次或一次出现。要想获得更精确的控制,可以使用{}语法来精确控制一个重复次数或重复次数的最小值和最大值。元字符分“贪婪型”和“懒惰型”两种,在需要防止过度匹配的情况下,使用“懒惰型”元字符来构造正则表达式。)
\b用来匹配一个单词的开始或结尾。
\B用来匹配一个字符的开始或结尾。
^用来定义字符串开头,$用来定义字符串结尾。
(?m)用来启用分行匹配模式,(?m)必须出现在整个模式的最前面。
(总结:正则表达式不仅可以用来匹配任意长度的文本块,还可以用来匹配出现在字符串特定位置的文本。\b用来指定一个单词边界(\B刚好相反)。^和$用来自定字符串边界(字符串的开头和字符串的结束)。如果与(?m)配合使用,^和$还将匹配在一个换行符处开头或结束的字符串(此时,换行符将被视为一个字符串分隔符)。)