imooc学习地址 :http://www.imooc.com/learn/350
【正则表达式语法】
界定符
原子
量词
边界控制
模式单元
【界定符】
正则表达式 开始和结束 / /
界定符也可能根据编程语言的不同,而有所区别;
PHP中可以用 # # { }
【正则工具】
regexpal
http://regexpal.com/
这工具的使用不需要包含界定符
【原子】
原子分为可见原子和不可见原子;
即可以通过键盘输入的元素;
【不可见原子】如:\t [TAB] \n 回车 空格直接空格
【文字匹配】
汉字转成UNICODE编码
$运算符 ,特殊字符需要用 \转义 , \\转义为单个 \
【元字符】
定义筛选方式,简化书写
| 或者
[ ] 匹配中括号内部任意一个原子 [Db]uangs []里面只能写原子,| 必须连续相同
[^] 只要中括号里面的就不匹配,除了里面的
匹配英文字母 [a-z]区间 [0-9]
匹配大小写字母和数字 [a-zA-Z0-9]\W 代表 数字和字母及下划线
\u4e00-\u9fa5 汉字
【元字符 原子的集合】(需要记忆)
. 匹配出了换行符之外的任意字符
\d 匹配任意一个十进制数字 即 [0-9]
\D 匹配任意一个非十进制的数字,即 [^0-9]
\s 匹配一个不可见原子 即 [\f\n\r\t\v]
\S 匹配一个可见原子, 即[^\f\n\r\t\v]
\w 匹配任意一个数字、字母或下划线 即 [0-9a-zA-Z]
\W 匹配任意一个非数字、字母或下划线 即 [^0-9a-zA-Z]
【量词】 查找某个原子连续出现多少次
{n} 表示其前面的原子恰好出现n次
{n,} 表示其前面的原子最少出现n次
{n,m} 表示其前面的原子最少出现n次,最多出现m次
* 匹配0次、1次或者多次其之前的原子,即{0,}
+ 匹配1次或者多次其之前的原子,即{1,}
? 匹配0次或者1次其之前的原子,即{0,1}
例:连续出现3个5 即 /5{3}/
[a-zA-Z]{2}即表示只要两个英文字母连续在一起的匹配
\w{4} 即 连续四次 符合\w的匹配
\w{4,}即四次即以上
\w{4,8}即四到8次
\w* 即连续在一起的\w就会被匹配
\d+ 匹配一次到无限次 的连续数字
\d?匹配数字一次或零次
\?i 紧跟一个i才会被匹配
【边界控制】
^ 匹配字符串开始的位置
$ 匹配字符串结尾的位置
例:
^ 即表示在第一个字符前面不能有任何东西,
$ 即表示必须以最后一个字符结束,后面不能有任何其他字符
【模式单元】
()匹配其中的整体为一个原子
【模式单元】
()匹配其中的整体为一个原子
会把空号里面的当做原子来看待,可以与()后面的字符组成模式单元
例:
(D|d)ang 即 匹配 Dang和dang
【修正模式】给正则表达式指定一种匹配模式
[贪婪匹配与懒惰匹配]
贪婪匹配 :匹配长的
懒惰匹配:匹配短的
在结束符 /后面加大U
默认贪婪模式,匹配最长的
$pattern
preg_match($pattern,$String,matches)
[常用模式]
默认匹配模式,添加在匹配模式的最后面,实例/0-9/
U 懒惰匹配,匹配结果存在歧义时取其短,实例/0-9/U
i 忽略英文字母大小写,实例/aabb/i
x 忽略空白,实例/aa bb/x
s 让元字符"."匹配包括换行在内的所有字符e
让两种模式同时用可以连续写