还有一些在各个正则表达式引擎之间比较通用的规则,在前面的讲解过程中没有提到。
表达式中,可以使用 "/xXX" 和 "/uXXXX" 表示一个字符("X" 表示一个十六进制数)
形式 字符范围
/xXX 编号在 0 ~ 255 范围的字符,
比如:空格可以使用"/x20" 表示
/uXXXX 任何字符可以使用 "/u" 再加上其
编号的 4 位十六进制数表示,
比如:"/u4E2D"
在表达式 "/s","/d","/w","/b" 表示特殊意义的同时,对应的 大写字母表示相反的意义
表达式 可匹配
/S 匹配所有非空白字符("/s" 可匹配各个空白字符)
/D 匹配所有的非数字字符
/W 匹配所有的字母、数字、下划线以外的字符
/B 匹配非单词边界,即左右两边都是 "/w" 范围或者
左右两边都不是 "/w" 范围时的字符缝隙
在表达式中有特殊意义,需要添加 "/" 才能匹配该字符本身的字 符汇总
字符 说明
^ 匹配输入字符串的开始位置。要匹配 "^"
字符本身,请使用 "/^"
$ 匹配输入字符串的结尾位置。要匹配 "$"
字符本身,请使用 "/$"
( ) 标记一个子表达式的开始和结束位置。
要匹配小括号,请使用 "/(" 和 "/)"
[ ] 用来自定义能够匹配 '多种字符' 的表达式。
要匹配中括号,请使用 "/[" 和 "/]"
{ } 修饰匹配次数的符号。要匹配大括号,请使用 "/{"和 "/}"
. 匹配除了换行符(/n)以外的任意一个字符。要匹配
小数点本身,请使用 "/."
? 修饰匹配次数为 0 次或 1 次。要匹配 "?" 字符本身,请使用 "/?"
+ 修饰匹配次数为至少 1 次。要匹配 "+" 字符本身,请
使用 "/+"
* 修饰匹配次数为 0 次或任意次。要匹配 "*" 字符本身,
请使用 "/*"
| 左右两边表达式之间 "或" 关系。匹配 "|" 本身,请
使用 "/|"
括号 "( )" 内的子表达式,如果希望匹配结果不进行记录供以后使用,可以使用 "(?:xxxxx)" 格式
举例 1:
表达式 "(?:(/w)/1)+" 匹配 "a bbccdd efg" 时,结果是"bbccdd"。括号 "(?:)" 范围的匹配结果不进行记录,因此 "(/w)" 使用"/1" 来引用。
常用的表达式属性设置简介:Ignorecase,Singleline,Multiline, Global
表达式属性 说明
Ignorecase 默认情况下,表达式中的字母是要区分大小写
的。配置为 Ignorecase 可使匹配时不区分大小写。
有的表达式引擎,把 "大小写" 概念延伸至 UNICODE
范围的大小写。
Singleline 默认情况下,小数点 "." 匹配除了换行符(/n)
以外的字符。配置为 Singleline 可使小数点可匹配包
括换行符在内的所有字符。
开始 ① 和结尾 ④ 位置。如:
①xxxxxxxxx②/n
③xxxxxxxxx④
配置为 Multiline 可以使 "^" 匹配 ① 外,还可以匹配
换行符之后,下一行开始前 ③ 的位置,使 "$" 匹配
④ 外,还可以匹配换行符之前,一行结束 ② 的位置。
Global 主要在将表达式用来替换时起作用,配置为Global
表示替换所有的匹配。