本文旨在介绍正则表达式最最基础的部分便于不知道的读者对正则表达式产生一个概念,科普一下(不一定能入门)。
什么是正则表达式?
正则表达式可以干什么?
我们想把空格分隔变成逗号分隔,有同学说,直接将空格替换成逗号就可以了,但是试过之后,结果如下:
但是使用正则表达式进行替换,结果才是我们想要的:
另外,很多编程语言都支持正则表达式,比如
Java
,
C#
,
Python
,
Perl
之类的,尤其是
Perl
,已经将其集成到语法里面。我们可以在编程语言中很方便的用它来处理文本,比如检查
email
或者手机号格式,在抓取的网页中匹配需要的数据等等。
正则表达式有哪些内容?
学习正则表达式主要需要掌握以下几个概念(不一定全):
元字符
字符转义
锚点
零宽断言
反向引用
选项
这里简单讲一下元字符,其他读者自己有兴趣再自己去学习。
字符串的开始可以用
^
指定,结束用
$
,所以匹配全数字的字符串可以用
^[0-9]$
,其中中括号表示是其中一个,
0-9
是
0123456789
的简写,也可以写成
\d
,不过可能有些地方不支持。
常用的特殊代码
|
|
|
说明
|
.
|
匹配除换行符以外的任意字符
|
\w
|
匹配字母或数字
|
\s
|
匹配任意的空白符
|
\d
|
匹配数字
|
\b
|
匹配单词的开始或结束
|
^
|
匹配字符串的开始
|
$
|
匹配字符串的结束
|
按照上面的表格,如果我们需要匹配一个全数字的单词,可以用 \b\d+\b
一些复杂的正则表达式(网上抄来的,可以借鉴一下)
匹配首尾空白字符的正则表达式:^\s*|\s*$
评注:可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式
匹配Email地址的正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
评注:表单验证时很实用
匹配网址URL的正则表达式:[a-zA-z]+://[^\s]*
评注:网上流传的版本功能很有限,上面这个基本可以满足需求
匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
评注:表单验证时很实用
匹配国内电话号码:\d{3}-\d{8}|\d{4}-\d{7}
评注:匹配形式如 0511-4405222 或 021-87888822
匹配腾讯QQ号:[1-9][0-9]{4,}
评注:腾讯QQ号从10000开始
匹配中国邮政编码:[1-9]\d{5}(?!\d)
评注:中国邮政编码为6位数字
匹配身份证:\d{15}|\d{18}
评注:中国的身份证为15位或18位
匹配ip地址:\d+\.\d+\.\d+\.\d+
评注:提取ip地址时有用
如何进一步学习?
1. http://deerchao.net/tutorials/regex/regex-1.htm
1. http://deerchao.net/tutorials/regex/regex-1.htm
2. 《正则表达式之道》
3. 《
Mastering Regular Expressions
(精通正则表达式)》