正则表达式语法
也许有人会说,现在需要正则表达式去验证什么的话,直接在网上找不久一大片吗?还需要学什么啊!
是的,现在在网上找确实是一找一大片,但是,有时候我们也遇到这样的情况,就是我们在网上找的复制下来之后粘贴到我们的项目中就是报JS的错误,或者就是实现不了我们想要的效果。可能你复制的这个正则表达式仅仅是别人少些了一个字符或者是你少复制了一个字符。这个时候如果你会一点正则表达式的语法的话,也许只需要你随便仔细看一看,你就可以改一下就好了。而且这怎么说也是一个技术,会的话是自己的,别人有拿不走。反正就是没事的话可以学学,挺好的!呵呵
“正则表达式”描述在搜索文本正文时要匹配的一个或多个字符串。该表达式可用作一个将字符模式与要搜索的字符串相匹配的模板。
正则表达式包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”)。
特殊字符
下表包含了单字符元字符的列表以及它们在正则表达式中的行为。
说明
若要匹配这些特殊字符之一,必须首先转义字符,即,在字符前面加反斜杠字符 (\)。例如,若要搜索“+”文本字符,可使用表达式“\+”。
元字符
行为
示例
*
零次或多次匹配前面的字符或子表达式。
等效于 {0,}。
zo* 与“z”和“zoo”匹配。
+
一次或多次匹配前面的字符或子表达式。
等效于 {1,}。
zo+ 与“zo”和“zoo”匹配,但与“z”不匹配。
?
零次或一次匹配前面的字符或子表达式。
等效于 {0,1}。
当 ?紧随任何其他限定符(*、+、?、{n}、{n,} 或 {n,m})之后时,匹配模式是非贪婪的。非贪婪模式匹配搜索到的、尽可能少的字符串,而默认的贪婪模式匹配搜索到的、尽可能多的字符串。
zo? 与“z”和“zo”匹配,但与“zoo”不匹配。
o+? 只与“oooo”中的单个“o”匹配,而 o+ 与所有“o”匹配。
do(es)? 与“do”或“does”中的“do”匹配。
^
匹配搜索字符串开始的位置。如果标志中包括 m(多行搜索)字符,^ 还将匹配 \n 或 \r 后面的位置。
如果将 ^ 用作括号表达式中的第一个字符,则会对字符集求反。
^\d{3} 与搜索字符串开始处的 3 个数字匹配。
[^abc] 与除 a、b 和 c 以外的任何字符匹配。
$
\d{3}$ 与搜索字符串结尾处的 3 个数字匹配。
.
匹配除换行符 \n 之外的任何单个字符。若要匹配包括 \n 在内的任意字符,请使用诸如 [\s\S] 之类的模式。
a.c 与“abc”、“a1c”和“a-c”匹配。
[]
标记括号表达式的开始和结尾。
[1-4] 与“1”、“2”、“3”或“4”匹配。[^aAeEiIoOuU] 与任何非元音字符匹配。
{}
标记限定符表达式的开始和结尾。
a{2,3} 与“aa”和“aaa”匹配。
()
标记子表达式的开始和结尾。可以保存子表达式以备将来之用。
A(\d) 与“A0”至“A9”匹配。保存该数字以备将来之用。
|
指示在两个或多个项之间进行选择。
z|food 与“z”或“food”匹配。(z|f)ood 与“zood”或“food”匹配。
/
/abc/gi 是与“abc”匹配的 JScript 文本正则表达式。g(全局)标志指定查找模式的所有匹配项,i(忽略大小写)标志使搜索不区分大小写。
\
将下一字符标记为特殊字符、文本、反向引用或八进制转义符。
\n 与换行符匹配。\( 与“(”匹配。\\ 与“\”匹配。
大多数特殊字符在括号表达式内出现时失去它们的意义,并表示普通字符。有关更多信息,请参见匹配字符的列表中的“括号表达式中的字符”。
元字符
下表包含了多字符元字符的列表以及它们在正则表达式中的行为。
元字符
行为
示例
\b
与一个字边界匹配;即字与空格间的位置。
er\b 与“never”中的“er”匹配,但与“verb”中的“er”不匹配。
\B
非边界字匹配。
er\B 与“verb”中的“er”匹配,但与“never”中的“er”不匹配。
\d
数字字符匹配。
等效于 [0-9]。
在搜索字符串“12 345”中,\d{2} 与“12”和“34”匹配。\d 与“1”、“2”、“3”、“4”和“5”匹配。
\D
非数字字符匹配。
等效于 [^0-9]。
\D+ 与“abc123 def”中的“abc”和“def”匹配。
\w
与以下任意字符匹配:A-Z、a-z、0-9 和下划线。
等效于 [A-Za-z0-9_]。
在搜索字符串“The quick brown fox…”中,\w+ 与“The”、“quick”、“brown”和“fox”匹配。
\W
与除 A-Z、a-z、0-9 和下划线以外的任意字符匹配。
等效于 [^A-Za-z0-9_]。
在搜索字符串“The quick brown fox…”中,\W+ 与“…”和所有空格匹配。
[xyz]
字符集。与任何一个指定字符匹配。
[abc] 与“plain”中的“a”匹配。
[^xyz]
反向字符集。与未指定的任何字符匹配。
[^abc] 与“plain”中的“p”、“l”、“i”和“n”匹配。
[a-z]
字符范围。匹配指定范围内的任何字符。
[a-z] 与“a”到“z”范围内的任何小写字母字符匹配。
[^a-z]
反向字符范围。与不在指定范围内的任何字符匹配。
[^a-z] 与不在范围“a”到“z”内的任何字符匹配。
{n}
正好匹配 n 次。n 是非负整数。
o{2} 与“Bob”中的“o”不匹配,但与“food”中的两个“o”匹配。
{n,}
至少匹配 n 次。n 是非负整数。
* 与 {0,} 相等。
+ 与 {1,} 相等。
o{2,} 与“Bob”中的“o”不匹配,但与“foooood”中的所有“o”匹配。
{n,m}
匹配至少 n 次,至多 m 次。n 和 m 是非负整数,其中 n <= m。逗号和数字之间不能有空格。
? 与 {0,1} 相等。
在搜索字符串“1234567”中,\d{1,3} 与“123”、“456”和“7”匹配。
(模式)
与模式 匹配并保存匹配项。您可以从由 JScript 中的 exec Method返回的数组元素中检索保存的匹配项。若要匹配括号字符 ( ),请使用“\(”或者“\)”。
(Chapter|Section) [1-9] 与“Chapter 5”匹配,保存“Chapter”以备将来之用。
(?:模式)
与模式 匹配,但不保存匹配项;即不会存储匹配项以备将来之用。这对于用“or”字符 (|) 组合模式部件的情况很有用。
industr(?:y|ies) 与 industry|industries 相等。
(?=模式)
积极的预测先行。找到一个匹配项后,将在匹配文本之前开始搜索下一个匹配项。不会保存匹配项以备将来之用。
^(?=.*\d).{4,8}$ 对密码应用以下限制:其长度必须介于 4 到 8 个字符之间,并且必须至少包含一个数字。
在该模式中,.*\d 查找后跟有数字的任意多个字符。对于搜索字符串“abc3qr”,这与“abc3”匹配。
从该匹配项之前(而不是之后)开始,.{4,8} 与包含 4-8 个字符的字符串匹配。这与“abc3qr”匹配。
(?!模式)
消极的预测先行。匹配与模式 不匹配的搜索字符串。找到一个匹配项后,将在匹配文本之前开始搜索下一个匹配项。不会保存匹配项以备将来之用。
\b(?!th)\w+\b 与不以“th”开头的单词匹配。
在该模式中,\b 与一个字边界匹配。对于搜索字符串“ quick ”,这与第一个空格匹配。(?!th) 与非“th”字符串匹配。这与“qu”匹配。
从该匹配项开始,\w+ 与一个字匹配。这与“quick”匹配。
\cx
匹配 x 指示的控制字符。x 的值必须在 A-Z 或 a-z 范围内。如果不是这样,则假定 c 就是文本“c”字符本身。
\cM 与 Ctrl+M 或一个回车符匹配。
\xn
匹配 n,此处的 n 是一个十六进制转义码。十六进制转义码必须正好是两位数长。允许在正则表达式中使用 ASCII 代码。
\x41 与“A”匹配。\x041 等效于后跟有“1”的“\x04”(因为 n 必须正好是两位数)。
\num
匹配 num,此处的 num 是一个正整数。这是对已保存的匹配项的引用。
(.)\1 与两个连续的相同字符匹配。
\n
标识一个八进制转义码或反向引用。如果 \n 前面至少有 n 个捕获子表达式,那么 n 是反向引用。否则,如果 n 是八进制数 (0-7),那么 n 是八进制转义码。
(\d)\1 与两个连续的相同数字匹配。
\nm
标识一个八进制转义码或反向引用。如果 \nm 前面至少有 nm 个捕获子表达式,那么 nm 是反向引用。如果 \nm 前面至少有 n 个捕获子表达式,则 n 是反向引用,后面跟有文本 m。如果上述情况都不存在,当 n 和 m 是八进制数字 (0-7) 时,\nm 匹配八进制转义码 nm。
\11 与制表符匹配。
\nml
当 n 是八进制数字 (0-3),m 和 l 是八进制数字 (0-7) 时,匹配八进制转义码 nml。
\011 与制表符匹配。
\un
匹配 n,其中 n 是以四位十六进制数表示的 Unicode 字符。
\u00A9 与版权符号 (©) 匹配。
非打印字符
下表包含表示非打印字符的转义序列。
字符
匹配
等效于
\f
换页符。
\x0c 和 \cL
\n
换行符。
\x0a 和 \cJ
\r
回车符。
\x0d 和 \cM
\s
任何空白字符。其中包括空格、制表符和换页符。
[\f\n\r\t\v]
\S
任何非空白字符。
[^\f\n\r\t\v]
\t
Tab 字符。
\x09 和 \cI
\v
垂直制表符。
\x0b 和 \cK
优先级顺序
正则表达式的计算方式与算术表达式非常类似;即从左到右进行计算,并遵循优先级顺序。
下表按从高到低的顺序包含了正则表达式运算符的优先级顺序。
运算符
说明
\
转义符
(),(?:),(?=),[]
括号和中括号
*、+、?、{n}、{n,}、{n,m}
限定符
^、$、\任何元字符
定位点和序列
|
替换
字符具有高于替换运算符的优先级,例如,允许“m|food”匹配“m”或“food”。
是的,现在在网上找确实是一找一大片,但是,有时候我们也遇到这样的情况,就是我们在网上找的复制下来之后粘贴到我们的项目中就是报JS的错误,或者就是实现不了我们想要的效果。可能你复制的这个正则表达式仅仅是别人少些了一个字符或者是你少复制了一个字符。这个时候如果你会一点正则表达式的语法的话,也许只需要你随便仔细看一看,你就可以改一下就好了。而且这怎么说也是一个技术,会的话是自己的,别人有拿不走。反正就是没事的话可以学学,挺好的!呵呵
“正则表达式”描述在搜索文本正文时要匹配的一个或多个字符串。该表达式可用作一个将字符模式与要搜索的字符串相匹配的模板。
正则表达式包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”)。
下表包含了单字符元字符的列表以及它们在正则表达式中的行为。
说明 |
---|
若要匹配这些特殊字符之一,必须首先转义字符,即,在字符前面加反斜杠字符 (\)。例如,若要搜索“+”文本字符,可使用表达式“\+”。 |
元字符 |
行为 |
示例 |
---|---|---|
* |
零次或多次匹配前面的字符或子表达式。 等效于 {0,}。 |
zo* 与“z”和“zoo”匹配。 |
+ |
一次或多次匹配前面的字符或子表达式。 等效于 {1,}。 |
zo+ 与“zo”和“zoo”匹配,但与“z”不匹配。 |
? |
零次或一次匹配前面的字符或子表达式。 等效于 {0,1}。 当 ?紧随任何其他限定符(*、+、?、{n}、{n,} 或 {n,m})之后时,匹配模式是非贪婪的。非贪婪模式匹配搜索到的、尽可能少的字符串,而默认的贪婪模式匹配搜索到的、尽可能多的字符串。 |
zo? 与“z”和“zo”匹配,但与“zoo”不匹配。 o+? 只与“oooo”中的单个“o”匹配,而 o+ 与所有“o”匹配。 do(es)? 与“do”或“does”中的“do”匹配。 |
^ |
匹配搜索字符串开始的位置。如果标志中包括 m(多行搜索)字符,^ 还将匹配 \n 或 \r 后面的位置。 如果将 ^ 用作括号表达式中的第一个字符,则会对字符集求反。 |
^\d{3} 与搜索字符串开始处的 3 个数字匹配。 [^abc] 与除 a、b 和 c 以外的任何字符匹配。 |
$ |
\d{3}$ 与搜索字符串结尾处的 3 个数字匹配。 |
|
. |
匹配除换行符 \n 之外的任何单个字符。若要匹配包括 \n 在内的任意字符,请使用诸如 [\s\S] 之类的模式。 |
a.c 与“abc”、“a1c”和“a-c”匹配。 |
[] |
标记括号表达式的开始和结尾。 |
[1-4] 与“1”、“2”、“3”或“4”匹配。[^aAeEiIoOuU] 与任何非元音字符匹配。 |
{} |
标记限定符表达式的开始和结尾。 |
a{2,3} 与“aa”和“aaa”匹配。 |
() |
标记子表达式的开始和结尾。可以保存子表达式以备将来之用。 |
A(\d) 与“A0”至“A9”匹配。保存该数字以备将来之用。 |
| |
指示在两个或多个项之间进行选择。 |
z|food 与“z”或“food”匹配。(z|f)ood 与“zood”或“food”匹配。 |
/ |
/abc/gi 是与“abc”匹配的 JScript 文本正则表达式。g(全局)标志指定查找模式的所有匹配项,i(忽略大小写)标志使搜索不区分大小写。 |
|
\ |
将下一字符标记为特殊字符、文本、反向引用或八进制转义符。 |
\n 与换行符匹配。\( 与“(”匹配。\\ 与“\”匹配。 |
大多数特殊字符在括号表达式内出现时失去它们的意义,并表示普通字符。有关更多信息,请参见匹配字符的列表中的“括号表达式中的字符”。
下表包含了多字符元字符的列表以及它们在正则表达式中的行为。
元字符 |
行为 |
示例 |
---|---|---|
\b |
与一个字边界匹配;即字与空格间的位置。 |
er\b 与“never”中的“er”匹配,但与“verb”中的“er”不匹配。 |
\B |
非边界字匹配。 |
er\B 与“verb”中的“er”匹配,但与“never”中的“er”不匹配。 |
\d |
数字字符匹配。 等效于 [0-9]。 |
在搜索字符串“12 345”中,\d{2} 与“12”和“34”匹配。\d 与“1”、“2”、“3”、“4”和“5”匹配。 |
\D |
非数字字符匹配。 等效于 [^0-9]。 |
\D+ 与“abc123 def”中的“abc”和“def”匹配。 |
\w |
与以下任意字符匹配:A-Z、a-z、0-9 和下划线。 等效于 [A-Za-z0-9_]。 |
在搜索字符串“The quick brown fox…”中,\w+ 与“The”、“quick”、“brown”和“fox”匹配。 |
\W |
与除 A-Z、a-z、0-9 和下划线以外的任意字符匹配。 等效于 [^A-Za-z0-9_]。 |
在搜索字符串“The quick brown fox…”中,\W+ 与“…”和所有空格匹配。 |
[xyz] |
字符集。与任何一个指定字符匹配。 |
[abc] 与“plain”中的“a”匹配。 |
[^xyz] |
反向字符集。与未指定的任何字符匹配。 |
[^abc] 与“plain”中的“p”、“l”、“i”和“n”匹配。 |
[a-z] |
字符范围。匹配指定范围内的任何字符。 |
[a-z] 与“a”到“z”范围内的任何小写字母字符匹配。 |
[^a-z] |
反向字符范围。与不在指定范围内的任何字符匹配。 |
[^a-z] 与不在范围“a”到“z”内的任何字符匹配。 |
{n} |
正好匹配 n 次。n 是非负整数。 |
o{2} 与“Bob”中的“o”不匹配,但与“food”中的两个“o”匹配。 |
{n,} |
至少匹配 n 次。n 是非负整数。 * 与 {0,} 相等。 + 与 {1,} 相等。 |
o{2,} 与“Bob”中的“o”不匹配,但与“foooood”中的所有“o”匹配。 |
{n,m} |
匹配至少 n 次,至多 m 次。n 和 m 是非负整数,其中 n <= m。逗号和数字之间不能有空格。 ? 与 {0,1} 相等。 |
在搜索字符串“1234567”中,\d{1,3} 与“123”、“456”和“7”匹配。 |
(模式) |
与模式 匹配并保存匹配项。您可以从由 JScript 中的 exec Method返回的数组元素中检索保存的匹配项。若要匹配括号字符 ( ),请使用“\(”或者“\)”。 |
(Chapter|Section) [1-9] 与“Chapter 5”匹配,保存“Chapter”以备将来之用。 |
(?:模式) |
与模式 匹配,但不保存匹配项;即不会存储匹配项以备将来之用。这对于用“or”字符 (|) 组合模式部件的情况很有用。 |
industr(?:y|ies) 与 industry|industries 相等。 |
(?=模式) |
积极的预测先行。找到一个匹配项后,将在匹配文本之前开始搜索下一个匹配项。不会保存匹配项以备将来之用。 |
^(?=.*\d).{4,8}$ 对密码应用以下限制:其长度必须介于 4 到 8 个字符之间,并且必须至少包含一个数字。 在该模式中,.*\d 查找后跟有数字的任意多个字符。对于搜索字符串“abc3qr”,这与“abc3”匹配。 从该匹配项之前(而不是之后)开始,.{4,8} 与包含 4-8 个字符的字符串匹配。这与“abc3qr”匹配。 |
(?!模式) |
消极的预测先行。匹配与模式 不匹配的搜索字符串。找到一个匹配项后,将在匹配文本之前开始搜索下一个匹配项。不会保存匹配项以备将来之用。 |
\b(?!th)\w+\b 与不以“th”开头的单词匹配。 在该模式中,\b 与一个字边界匹配。对于搜索字符串“ quick ”,这与第一个空格匹配。(?!th) 与非“th”字符串匹配。这与“qu”匹配。 从该匹配项开始,\w+ 与一个字匹配。这与“quick”匹配。 |
\cx |
匹配 x 指示的控制字符。x 的值必须在 A-Z 或 a-z 范围内。如果不是这样,则假定 c 就是文本“c”字符本身。 |
\cM 与 Ctrl+M 或一个回车符匹配。 |
\xn |
匹配 n,此处的 n 是一个十六进制转义码。十六进制转义码必须正好是两位数长。允许在正则表达式中使用 ASCII 代码。 |
\x41 与“A”匹配。\x041 等效于后跟有“1”的“\x04”(因为 n 必须正好是两位数)。 |
\num |
匹配 num,此处的 num 是一个正整数。这是对已保存的匹配项的引用。 |
(.)\1 与两个连续的相同字符匹配。 |
\n |
标识一个八进制转义码或反向引用。如果 \n 前面至少有 n 个捕获子表达式,那么 n 是反向引用。否则,如果 n 是八进制数 (0-7),那么 n 是八进制转义码。 |
(\d)\1 与两个连续的相同数字匹配。 |
\nm |
标识一个八进制转义码或反向引用。如果 \nm 前面至少有 nm 个捕获子表达式,那么 nm 是反向引用。如果 \nm 前面至少有 n 个捕获子表达式,则 n 是反向引用,后面跟有文本 m。如果上述情况都不存在,当 n 和 m 是八进制数字 (0-7) 时,\nm 匹配八进制转义码 nm。 |
\11 与制表符匹配。 |
\nml |
当 n 是八进制数字 (0-3),m 和 l 是八进制数字 (0-7) 时,匹配八进制转义码 nml。 |
\011 与制表符匹配。 |
\un |
匹配 n,其中 n 是以四位十六进制数表示的 Unicode 字符。 |
\u00A9 与版权符号 (©) 匹配。 |
下表包含表示非打印字符的转义序列。
字符 |
匹配 |
等效于 |
---|---|---|
\f |
换页符。 |
\x0c 和 \cL |
\n |
换行符。 |
\x0a 和 \cJ |
\r |
回车符。 |
\x0d 和 \cM |
\s |
任何空白字符。其中包括空格、制表符和换页符。 |
[\f\n\r\t\v] |
\S |
任何非空白字符。 |
[^\f\n\r\t\v] |
\t |
Tab 字符。 |
\x09 和 \cI |
\v |
垂直制表符。 |
\x0b 和 \cK |
正则表达式的计算方式与算术表达式非常类似;即从左到右进行计算,并遵循优先级顺序。
下表按从高到低的顺序包含了正则表达式运算符的优先级顺序。
运算符 |
说明 |
---|---|
\ |
转义符 |
(),(?:),(?=),[] |
括号和中括号 |
*、+、?、{n}、{n,}、{n,m} |
限定符 |
^、$、\任何元字符 |
定位点和序列 |
| |
替换 |
字符具有高于替换运算符的优先级,例如,允许“m|food”匹配“m”或“food”。
1. 正则表达式规则
1.1 普通字符
1.2 简单的转义字符
表达式 |
可匹配 |
/r,/n |
代表回车和换行符 |
/t |
制表符 |
// |
代表 "/" 本身 |
表达式 |
可匹配 |
/^ |
匹配 ^ 符号本身 |
/$ |
匹配 $ 符号本身 |
/. |
匹配小数点(.)本身 |
1.3 能够与 '多种字符' 匹配的表达式
表达式 |
可匹配 |
/d |
任意一个数字,0~9 中的任意一个 |
/w |
任意一个字母或数字或下划线,也就是 A~Z,a~z,0~9,_ 中任意一个 |
/s |
包括空格、制表符、换页符等空白字符的其中任意一个 |
. |
小数点可以匹配除了换行符(/n)以外的任意一个字符 |
1.4 自定义能够匹配 '多种字符' 的表达式
表达式 |
可匹配 |
[ab5@] |
匹配 "a" 或 "b" 或 "5" 或 "@" |
[^abc] |
匹配 "a","b","c" 之外的任意一个字符 |
[f-k] |
匹配 "f"~"k" 之间的任意一个字母 |
[^A-F0-3] |
匹配 "A"~"F","0"~"3" 之外的任意一个字符 |
1.5 修饰匹配次数的特殊符号
表达式 |
作用 |
{n} |
表达式重复n次,比如:"/w{2}" 相当于 "/w/w";"a{5}" 相当于 "aaaaa" |
{m,n} |
表达式至少重复m次,最多重复n次,比如:"ba{1,3}"可以匹配 "ba"或"baa"或"baaa" |
{m,} |
表达式至少重复m次,比如:"/w/d{2,}"可以匹配 "a12","_456","M12344"... |
? |
匹配表达式0次或者1次,相当于 {0,1},比如:"a[cd]?"可以匹配 "a","ac","ad" |
+ |
表达式至少出现1次,相当于 {1,},比如:"a+b"可以匹配 "ab","aab","aaab"... |
* |
表达式不出现或出现任意次,相当于 {0,},比如:"/^*b"可以匹配 "b","^^^b"... |
1.6 其他一些代表抽象意义的特殊符号
表达式 |
作用 |
^ |
与字符串开始的地方匹配,不匹配任何字符 |
$ |
与字符串结束的地方匹配,不匹配任何字符 |
/b |
匹配一个单词边界,也就是单词和空格之间的位置,不匹配任何字符 |
表达式 |
作用 |
| |
左右两边表达式之间 "或" 关系,匹配左边或者右边 |
( ) |
(1). 在被修饰匹配次数的时候,括号中的表达式可以作为整体被修饰 |
2. 正则表达式中的一些高级规则
2.1 匹配次数中的贪婪与非贪婪
表达式 |
匹配结果 |
(d)(/w+) |
"/w+" 将匹配第一个 "d" 之后的所有字符 "xxxdxxxd" |
(d)(/w+)(d) |
"/w+" 将匹配第一个 "d" 和最后一个 "d" 之间的所有字符 "xxxdxxx"。虽然 "/w+" 也能够匹配上最后一个 "d",但是为了使整个表达式匹配成功,"/w+" 可以 "让出" 它本来能够匹配的最后一个 "d" |
表达式 |
匹配结果 |
(d)(/w+?) |
"/w+?" 将尽可能少的匹配第一个 "d" 之后的字符,结果是:"/w+?" 只匹配了一个 "x" |
(d)(/w+?)(d) |
为了让整个表达式匹配成功,"/w+?" 不得不匹配 "xxx" 才可以让后边的 "d" 匹配,从而使整个表达式匹配成功。因此,结果是:"/w+?" 匹配 "xxx" |
2.2 反向引用 /1,/2...
(.*) | aa |
bb |
aa |
bb |
(.*?) | aa |
bb |
(.*?) |
2.3 预搜索,不匹配;反向预搜索,不匹配
3. 其他通用规则
3.1 表达式中,可以使用 "/xXX" 和 "/uXXXX" 表示一个字符("X" 表示一个十六进制数)
" 与 " | |
形式 |
字符范围 |
/xXX |
编号在 0 ~ 255 范围的字符,比如:空格可以使用 "/x20" 表示 |
/uXXXX |
任何字符可以使用 "/u" 再加上其编号的4位十六进制数表示,比如:"/中" |
3.2 在表达式 "/s","/d","/w","/b" 表示特殊意义的同时,对应的大写字母表示相反的意义
表达式 |
可匹配 |
/S |
匹配所有非空白字符("/s" 可匹配各个空白字符) |
/D |
匹配所有的非数字字符 |
/W |
匹配所有的字母、数字、下划线以外的字符 |
/B |
匹配非单词边界,即左右两边都是 "/w" 范围或者左右两边都不是 "/w" 范围时的字符缝隙 |
3.3 在表达式中有特殊意义,需要添加 "/" 才能匹配该字符本身的字符汇总
字符 |
说明 |
^ |
匹配输入字符串的开始位置。要匹配 "^" 字符本身,请使用 "/^" |
$ |
匹配输入字符串的结尾位置。要匹配 "$" 字符本身,请使用 "/$" |
( ) |
标记一个子表达式的开始和结束位置。要匹配小括号,请使用 "/(" 和 "/)" |
[ ] |
用来自定义能够匹配 '多种字符' 的表达式。要匹配中括号,请使用 "/[" 和 "/]" |
{ } |
修饰匹配次数的符号。要匹配大括号,请使用 "/{" 和 "/}" |
. |
匹配除了换行符(/n)以外的任意一个字符。要匹配小数点本身,请使用 "/." |
? |
修饰匹配次数为 0 次或 1 次。要匹配 "?" 字符本身,请使用 "/?" |
+ |
修饰匹配次数为至少 1 次。要匹配 "+" 字符本身,请使用 "/+" |
* |
修饰匹配次数为 0 次或任意次。要匹配 "*" 字符本身,请使用 "匹配“dddabbbbc”中的“abbbb”,也匹配“ddda”中的“a” 5>+:匹配前一个字符1次或多次。 6>?:?的用法比较特殊,一般来说它用来对前一个字符做0次或1次匹配,但是它有另外两种特殊的用法: 7>.:小数点中的“.”号,匹配任何一个单独的字符,但是换行符除外。 8>(x):表示匹配x(并非特指字符x或者特指一个字符,x表示一个字符串),而且匹配会被记住,在语法中这种()被称为“capturing parentheses ”,即捕捉用的小括号。 10>X(?=y):匹配x,仅当后面紧跟着y时。如果符合匹配,则只有x会被记住,y不会被记住。 11>X(?!y):匹配x,仅当后面不紧跟着y时。如果符合匹配,则只有x会被记住,y不会被记住。 12>x|y:匹配x或y。注意如果x和y都匹配上了,那么只记住x。 13>{n}:匹配前一个字符的n次出现。 14>{n,}:匹配前一个字符的至少n次出现。 15>{n,m}:匹配前一个字符的至少n次最多m次的出现。 16>[xyz]:xyz表示一个字符串,该模式表示匹配[]中的一个字符,形式上[xyz]等同于[x-z]。 17>[^xyz]:该模式表示匹配非[]中的一个字符,形式上[^xyz]等同于[^x-z]。 18>[/b]:匹配退格键。 19>/b:匹配一个词的边界符,例如空格和换行符等等,当然匹配换行符时,表达式应该附加参数m。 20>/B:代表一个非单词边界。 21>/cX,匹配一个控制字符。例如, /cM 匹配一个 Control-M 或 21>/d:匹配一个数字字符,等同于[0-9]。 22>/D:匹配一个非数字字符,等同于[^0-9]。 23>/f:匹配一个换页符。 24>/n:匹配一个换行符。因为是换行符,所以在表达式中要加入m参数。 26>/s:匹配一个空格符,等同于[ /f/n/r/t/v/u00A0/u2028/u2029]. 27>/S:匹配一个非空格符,等同于[ ^/f/n/r/t/v/u00A0/u2028/u2029]. 28>/t:匹配一个tab 29>/v:匹配一个竖向的tab 30>/w:匹配一个数字、_或字母表字符,即[A-Za-z0-9_ ]。 31>/W:匹配一个非数字、_或字母表字符,即[^A-Za-z0-9_ ]。 32>/n:注意不是/n,这里n是一个正整数,表示匹配第n个()中的字符。 33>/0:匹配一个NUL字符。 34>/xhh:匹配一个由两位16进制数字所表达的字符。 35>/uhhhh:匹配一个由四位16进制数字所表达的字符。
1)表达式操作,在这里是指和表达式相关的方法,我们将介绍六个方法。 1>exec(str),返回str中与表达式相匹配的第一个字符串,而且以数组的形式表现,当然如果表达式中含有捕捉用的小括号,则返回的数组中也可能含有()中的匹配字符串,例如: 2>test(str),判断字符串str是否匹配表达式,返回一个布尔值。例如: 3)String对象方法 1>match(expr),返回与expr相匹配的一个字符串数组,如果没有加参数g,则返回第一个匹配,加入参数g则返回所有的匹配 2>search(expr),返回字符串中与expr相匹配的第一个匹配的index值。 3>replace(expr,str),将字符串中匹配expr的部分替换为str。另外在replace方法中,str中可以含有一种变量符号$,格式为$n,代表匹配中被记住的第n的匹配字符串(注意小括号可以记忆匹配)。 4>split(expr),将字符串以匹配expr的部分做分割,返回一个数组,而且表达式是否附加参数g都没有关系,结果是一样的。 4,表达式相关属性 1)表达式相关属性,是指和表达式相关的属性,如下面的形式: 1>lastIndex,返回开始下一个匹配的位置,注意必须是全局匹配(表达式中带有g参数)时,lastIndex才会有不断返回下一个匹配值,否则该值为总是返回第一个下一个匹配位置,例如: 2>source,返回表达式字符串自身。例如: 1>index,返回当前匹配的位置。例如: 2>input,用于匹配的字符串。例如: 3>[0],返回匹配结果中的第一个匹配值,对于match而言可能返回一个多值的数字,则除了[0]外,还可以取[1]、[2]等等。例如: 5,实际应用 1)实际应用一 2)实际应用二 描述:给定一个含有html标记的字符串,要求将其中的html标记去掉。 实现: 三,小结 1,Javascript正则表达式,我想在一般的程序员之中,使用者应该不是很多,因为我们处理的页面一般都不是很复杂,而复杂的逻辑一般我们都在后台处理完成了。但是目前趋势已经出现了扭转,富客户端已经被越来越多的人接受,而Javascript就是其中的关键技术,对于复杂的客户端逻辑而言,正则表达式的作用也是很关键的,同时它也是Javascript高手必须要掌握的重要技术之一。 2,为了能够便于大家对前面讲述的内容有一个更为综合和深刻的认识,我将前面的一些关键点和容易犯糊涂的地方再系统总结一下,这部分很关键! 总结1:附件参数g的用法 表达式加上参数g之后,表明可以进行全局匹配,注意这里“可以”的含义。我们详细叙述: 1)对于表达式对象的exec方法,不加入g,则只返回第一个匹配,无论执行多少次均是如此,如果加入g,则第一次执行也返回第一个匹配,再执行返回第二个匹配,依次类推。例如 var regx=/user/d/; var str=“user18dsdfuser2dsfsd”; var rs=regx.exec(str);//此时rs的值为{user1} var rs2=regx.exec(str);//此时rs的值依然为{user1} 如果regx=/user/d/g;则rs的值为{user1},rs2的值为{user2} 通过这个例子说明:对于exec方法,表达式加入了g,并不是说执行exec方法就可以返回所有的匹配,而是说加入了g之后,我可以通过某种方式得到所有的匹配,这里的“方式”对于exec而言,就是依次执行这个方法即可。 2)对于表达式对象的test方法,加入g于不加上g没有什么区别。 3)对于String对象的match方法,不加入g,也只是返回第一个匹配,一直执行match方法也总是返回第一个匹配,加入g,则一次返回所有的匹配(注意这与表达式对象的exec方法不同,对于exec而言,表达式即使加上了g,也不会一次返回所有的匹配)。例如: var regx=/user/d/; var str=“user1sdfsffuser2dfsdf”; var rs=str.match(regx);//此时rs的值为{user1} var rs2=str.match(regx);//此时rs的值依然为{user1} 如果regx=/user/d/g,则rs的值为{user1,user2},rs2的值也为{user1,user2} 4)对于String对象的replace方法,表达式不加入g,则只替换第一个匹配,如果加入g,则替换所有匹配。(开头的三道测试题能很好的说明这一点) 5)对于String对象的split方法,加上g与不加g是一样的,即: var sep=/user/d/; var array=“user1dfsfuser2dfsf”.split(sep); 则array的值为{dfsf,dfsf} 此时sep=/user/d/g,返回值是一样的。 6)对于String对象的search方法,加不加g也是一样的。 总结2:附加参数m的用法 附加参数m,表明可以进行多行匹配,但是这个只有当使用^和$模式时才会起作用,在其他的模式中,加不加入m都可以进行多行匹配(其实说多行的字符串也是一个普通字符串),我们举例说明这一点 1)使用^的例子 var regx=/^b./g; var str=“bd76 dfsdf sdfsdfs dffs b76dsf sdfsdf”; var rs=str.match(regx); 此时加入g和不加入g,都只返回第一个匹配{bd},如果regx=/^b./gm,则返回所有的匹配{bd,b7},注意如果regx=/^b./m,则也只返回第一个匹配。所以,加入m表明可以进行多行匹配,加入g表明可以进行全局匹配,综合到一起就是可以进行多行全局匹配 2)使用其他模式的例子,例如 var regx=/user/d/; var str=“sdfsfsdfsdf sdfsuser3 dffs b76dsf user6”; var rs=str.match(regx); 此时不加参数g,则返回{user3},加入参数g返回{user3,user6},加不加入m对此没有影响。 3)因此对于m我们要清楚它的使用,记住它只对^和$模式起作用,在这两种模式中,m的作用为:如果不加入m,则只能在第一行进行匹配,如果加入m则可以在所有的行进行匹配。我们再看一个^的例子 var regx=/^b./; var str=“ret76 dfsdf bjfsdfs dffs b76dsf sdfsdf”; var rs=str.match(regx); 此时rs的值为null,如果加入g,rs的值仍然为null,如果加入m,则rs的值为{bj}(也就是说,在第一行没有找到匹配,因为有参数m,所以可以继续去下面的行去找是否有匹配),如果m和g都加上,则返回{bj,b7}(只加m不加g说明,可以去多行进行匹配,但是找到一个匹配后就返回,加入g表明将多行中所有的匹配返回,当然对于match方法是如此,对于exec呢,则需要执行多次才能依次返回) 总结3:在HTML的textarea输入域中,按一个Enter键,对应的控制字符为“/r/n”,即“回车换行”,而不是“/n/r”,即“换行回车”,我们看一个前面我们举过的例子: var regx=/a/r/nbc/; var str=“a bc”; var rs=regx.exec(str); 结果:匹配成功,rs的值为:{ },如果表达式为/a/n/rbc/,则不会被匹配,因此在一般的编辑器中一个”Enter”键代表着“回车换行”,而非“换行回车”,至少在textarea域中是这样的。 |