http://www.oschina.net/question/12_9507
1.\b 单词的开头或者结尾,即单词的分界线
\bhi\b 匹配单词hi 而不是him或者his \bhi\b.*\bLucy\b 匹配hi后不远处跟着Lucy 2. . 代表了除了换行符以外的任意字符 3. * 数量,标识* 前面的内容可以出现任意次 4. \d 匹配数字,0~9 5. {n} 表示{n} 前面的内容出现n次 \d{2} 两个数字 6. \s 表示任意空白符 包括空格,制表符 tab,中文全角空格 7. \w 匹配字母或者数字或者下划线或者汉字等 \ba\w*\b 表示a开头的单词 8. + 表示前面的内容1个或者更多 \d+ 一个以上的数字 \b\w{6}\b 6个字母或者数字 2中的 . 可以使0次 9. ^ 匹配字符串的开始,匹配一个位置 \b是单词,这个是字符串 10 $ 匹配字符串的结束,匹配一个位置 用于验证的时候很有用: ^\d{5,12}$ 表示qq号码 5 - 12的数字 有些正则表达式中还有处理多行的选项,如果勾选,则这两个表示行的开始和结束 11. {m,n} 数量在m <= x <= n 12 \ 转义字符 \.,\*,\\ 分别匹配.,*,\ 因为如果不转义则会被解释成元字符,() 括号也要转义 13 ? 表示数量是0 或者 1 14 {n,} 表示数量>= n 字符类 15 [] 匹配集合: a.[aeIoU] 用来匹配其中的一个,[?.,] 匹配一个标点符号 b.[0-9] 表示0 ~ 9的数字中一个 与\d一个意思 c. [0-9a-zA-z] 表示很多。 除了汉字外就是\w 例子:\(0\d{2}[)-]?\d{8} 电话号码 16. 分支条件: 指有几种规则用 | 分隔开,如果满足其中任意一种规则都应该当成匹配。 能匹配一定要匹配,不像? 可是可不是 \(0\d{2}\)[-]?\d{8}|0\d{3}[-]?\d{7} 三位区号或者四位区号 \(0\d{2}\)[-]?\d{8}|0\d{2}[-]?\d{8} 三位区号,被()或者没有 \(0\d{3}\)[-]?\d{7} 四位区号 顺序很重要,因为如果匹配了其中一个则不去管其他了 17 分组 () 用()起来的子表达式重复多次 (\d{1,3}\.){3}\d{1,3} 简单的错误IP地址匹配 正确的: ((2[0-4]\d|25[0-5]|[0,1]?\d\d?\.){3})((2[0-4]\d)|25[0-5]|[0,1]?\d\d?) 反义 大写' 18 \W 匹配任意不是字母,数字,下划线,汉字的字符 19 \S 匹配任意不是空白符的字符 20 \D 匹配任意不是数字的字符 21 \B 匹配任不是单词揩油或者结束的位置 22 [^X] 匹配除了X以外的任意字符,23 [^aeIoU] 匹配除了aeIoU这几个字母以外的任意字符 向后引用 用小括号() 起来的子表达,匹配这个字表达式后,默认每个小组(子表达式)会有一个组号,第一个出现开始的为1,2,3... 向后引用用于重复搜索前面某个分组匹配的文本, \1 表示匹配分组1 的文本 \b(\w+)\b\s+\1\b \1 匹配\w+ 例如 go go jee jee等 修改:可以自定义组名 (?<name>\w+) 这样 name就是组名了 也可以把<> 换成'',引用: 捕获:\b(?<words>\w+)\s+\k<words\>\b (?:exp) 匹配exp但不捕获匹配的文本,也不自动命名,将来命名\1,\2跳过这个 小括号的其他很多很难的用法: 捕获 零宽断言 注释 (?#comment) 贪婪和懒惰 24 *? 重复任意次,但是尽可能少 25 +? 重复一次或者任意次,尽可能少 26 ?? 重复0或者1次,及可能少 27 {m,n}? 重复m到n次,尽可能少 28 {m,}? 重复m次以上,尽可能少 处理选项 29 i IgnoreCase 忽略大小写 30 m Multiline 多行模式 ^ $ 可以匹配行开头和结尾 31 s dotall . 可以匹配换行符 32 g 匹配多个,默认是一个就结束 33 x 允许拓展的正则表达式。 可以在正则表达式中加入空格(看起来更直观),而且被忽略,无效的空格