单个表示:
-1 \d 数字
-2 \D 非数字
注:大小写就是取反的意思
-3 \w 任意一个字母或数字或下划线-4 \s 空白符(换行、制表符、空格)
-5 . 任意字符(除了换行符)
自定义字符集合:
[]表示匹配[]内的任意一个字符,是一个或运算,比如[123],就表示是数字1或数字2或数字3
[^]表示非运算,比如[^123],表示除了数字123的任意字符,包括空白符
[1-9],匹配数字1-9之间的任意一个字符
[^1-9a-b],匹配数字1-9和字符a-b之外的任意一个字符
注:在[]中,除了^和-以外的所有字符,都失去了特殊含义,比如.就是.,不是指任意字符了,当然\n这种还是代表换行
量词:
-1 {n},这里的n是一个数字,{n}表示连续出现几次,比如\d{6},表示连续匹配了6个数字,这个只与{}前一个表达式有关,比如\d\d{6}不是匹配12个数字,是表示匹配7个数字;如果想要表示12个数字,只需要加个(),(\d\d){6}即可
-2 {m,n},m和n都是数字,表示[m,n],比如\d{3,6},匹配的是满足连续3个-连续6个的数字的字符串,这里的匹配默认是贪婪模式,即先看有没有6个的,有的话返回6个,以此类推,如果想要使用非贪婪模式,即优先匹配3个连续数字的字符串,只需要在{}后加个?,\d{3,6}?即可。
-3 {m,},m是数字,表示匹配满足至少连续m次,但是没有{,m}这样的写法
-4 ? 匹配次数时0次或者1次,相当于{0,1},a\d{0,1}b等同于a\d?b
-5 + 匹配次数至少1次
-6 * 匹配次数至少0次
字符边界:
注:字符边界都是零宽的,即不会匹配到符号,这里匹配的是一个位置,而非字符
-1 ^ 字符串开始的位置 ^a表示字母a开头的位置
-2 $ 字符串结尾的位置 a$表示字母a结束的位置
-3 \b 匹配一个单词的边界(左边右边不全是\w),换句话就是,出现非数字非字符非下划线的符号就可以匹配了
举个例子:
字符串:test 90test test123
test\b的匹配结果是:test 90test test123,对test123的test来说,右边出现了数字
\btest\b的匹配结果是:test 90test test123,因为90test的test,左边是数字,test123的右边是数字
选择符和分组:
-1 | 表示或,匹配满足左边和右边的字符串,如\d|[a-z],表示匹配数字或者小写字母
-2 ()表示捕获组,将一个表达式用()括起来,就可以将这个括号视作整体
-3 \ddd,这里的ddd是数字,\ddd表示反向引用第几个括号的内容,举个例子:
[a-z]{2}表示连续2个小写字母,([a-z]{2})\1表示将([a-z]{2})匹配到的字符串再重复一次做匹配,比如([a-z]{2})匹配到ab,那么([a-z]{2})\1表示abab
([a-z]{2})([a-z])匹配到的内容是abc,那么([a-z]{2})([a-z])\2则是abcc,([a-z]{2})([a-z])\1\2则是abcabc,([a-z]{2})([a-z])\2\1则是abccab
总的来说,\ddd就是表示第几个括号的位置,以左括号的位置为准,因为这里捕获组会保存到内存,在大文本处理的时候可能会占用比较大的内存
-4 (?:) 非捕获组,即不会保存到内存,但是和()的返回结果相同,但是不能与反向引用相结合,因为不保存结果
预搜索(零宽断言):
之所以所零宽,因为这部分匹配的都是位置
-1 (?=exp) 这里exp是表达式, 整体表示断言自身出现的位置的后面能匹配表达式exp,举个例子
有如下字符串:eating fighting doing,表达式 [a-z]+(?=ing)匹配的结果是eat fight do,ing不计入匹配结果
-2 (?!=exp) 和上面相似后面不等于exp
-3 (?<=exp) 断言自身出现的位置的前面能匹配表达式exp