正则表达式基础（读书笔记）

正则表达式（regular expression，简称regex）是一种工具。

正则表达式的两种基本用途：查找和替换。

.字符（英文句号）可以匹配任何一个单个的字符。（.字符可以匹配任何单个的字符、数字、字母，甚至是.字符本身。）

\转义字符，这是一个元字符（Metacharacter，表示这个字符有特殊含义，而不是字符本身含义。）

（总结：.可以匹配任意字符；\用来对字符进行转义。）

[和]不匹配任何字符，它们只负责定义一个字符集合。

-连字符，这是一个元字符，可以用来定义字符区间，作为一个元字符它只能用在[和]之间，在字符集合意外的地方，-只是一个普通字符。

合法的字符区间：

A-Z，匹配从A到Z的所有大些字母；

a-z，匹配从a到z的所有小写字母；

A-z，匹配从ASCII字符A到ASCII字母z的所有字母（不常用）；

^取非字符也是元字符，用来对一个字符集合进行取非操作。

元字符大致可以分为两种：一种是用来匹配文本的（例如.），另一种是正则表达式语法所要求的（例如[和]）。

//2015.02.17

空白元字符：

[\b]	回退（并删除）一个字符（Backspace键）
\f	换页符
\n	换行符
\r	回车符
\t	制表符（Tab键）
\v	垂直制表符

数字元字符：

\d	任何一个数字字符（等价于[0-9]）
\D	任何一个非数字字符（等价于[^0-9]）

字母数字元字符：

\w	任何一个字母数字字符（大小写均可）或下划线字符（等价于[a-zA-Z0-9_]）
\W	任何一个非字母数字或非下划线字符（等价于[^a-zA-Z0-9_]）

空白字符元字符：

\s	任何一个空白字符（等价于[\f\n\r\t\v]）
\S	任何一个非空白字符（等价于[^\f\n\r\t\v]）

+匹配一个或多个字符的一次或多次出现（至少一个；不匹配零个字符的情况）。

*匹配一个或多个字符的零次或多次出现。

?匹配一个或多个字符的零次或一次出现。

{n}为重复匹配次数设置一个精确的值（例{3}表示前一个字符或字符集合必须连续出现3次）。

{n,m}为重复匹配次数设定一个区间（例{2,4}表示前一个字符或字符集合最少连续出现2次，最多4次，{3,}表示前一个字符或字符集合至少出现3次）。

贪婪型元字符和它们的懒惰版本：

*	*?
+	+?
{n,}	{n,}?

（总结：正则表达式的真正威力体现在重复次数匹配方面。+匹配字符或字符集合的一次或多次重复出现、*匹配字符或字符集合的零次或多次重复出现、?匹配字符或字符集合的零次或一次出现。要想获得更精确的控制，可以使用{}语法来精确控制一个重复次数或重复次数的最小值和最大值。元字符分“贪婪型”和“懒惰型”两种，在需要防止过度匹配的情况下，使用“懒惰型”元字符来构造正则表达式。）

\b用来匹配一个单词的开始或结尾。

\B用来匹配一个字符的开始或结尾。

^用来定义字符串开头，$用来定义字符串结尾。

(?m)用来启用分行匹配模式，(?m)必须出现在整个模式的最前面。

（总结：正则表达式不仅可以用来匹配任意长度的文本块，还可以用来匹配出现在字符串特定位置的文本。\b用来指定一个单词边界（\B刚好相反）。^和$用来自定字符串边界（字符串的开头和字符串的结束）。如果与(?m)配合使用，^和$还将匹配在一个换行符处开头或结束的字符串（此时，换行符将被视为一个字符串分隔符）。）

正则表达式基础（读书笔记）

猜你在找的正则表达式相关文章