正则表达式(regular expression)是一个描述字符模式的对象。使用JavaScript正则表达式可以进行强大的模式匹配和文本检索与替换功能。
1 作用
A 测试字符串的某个模式。
例如,可以对一个输入字符串进行测试(包含/位置/……)
B 替换文本。可以在文档中使用一个正则表达式来标识特定文字,然后可以全部将其删除,或者替换为别的文字
C 根据模式匹配从字符串中提取一个子字符串。可以用来在文本或输入字段中查找特定文字
2 正则表达式语法
一个正则表达式就是由普通字符(例如字符 a到 z)以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
3创建正则表达式
方法1:对象创建法
varre=newRegExp();//RegExp是一个对象,和Aarray一样 //没有任何效果,需要将正则表达式的内容作为字符串传递进去 re=newRegExp("a");//最简单的正则表达式,将匹配字母a varre = newRegExp("a","i");//第二个参数,表示匹配时不分大小写 a = A
★ RegExp 对象有 3 个方法:test()、exec()以及compile()。
01test()方法检索字符串中的指定值。返回值是 true 或 false。
var patt1=new RegExp("e"); document.write(patt1.test("Thebest things in life are free"));//true
02 exec() 方法检索字符串中的指定值。返回值是被找到的值。如果没有发现匹配,则返回 null
var patt1=new RegExp("e"); document.write(patt1.exec("The best things inlife are free"));//e
03compile()方法用于改变 RegExp。
compile() 既可以改变检索模式,也可以添加或删除第二个参数。
var patt1=new RegExp("e"); document.write(patt1.test("The best things in lifeare free")); patt1.compile("d"); document.write(patt1.test("The best things in life are free"));//truefalse
RegExp构造函数第一个参数为正则表达式的文本内容,而第二个参数则为可选项标志修饰符.可以组合使用
varre=newRegExp("a","g");//匹配所有的a或A var patt1=new RegExp("e","g"); do { result=patt1.exec("The best things in life are free"); document.write(result); } while (result!=null); //eeeeeenull
说明:
您可以向 RegExp 对象添加第二个参数,以设定检索。例如,如果需要找到所有某个字符的所有存在,则可以使用 "g" 参数 ("global")。
在使用 "g" 参数时,exec() 的工作原理如下:
- 找到第一个 "e",并存储其位置
- 如果再次运行 exec(),则从存储的位置开始检索,并找到下一个 "e",并存储其位置
方法2-直接量语法:
varre=/a/gi;
5测试正则表达式是如何工作的!
正则 表达式案例解析:
//test方法,测试字符串,符合模式时返回true,否则返回false varre=/he/;//最简单的正则表达式,将匹配he这个单词 varstr="he"; alert(re.test(str));//true
str="we"; alert(re.test(str));//false str="HE"; alert(re.test(str)); //false,大写,如果要大小写都匹配可以指定i标志(i是ignoreCase或case-insensitive的表示) re=/he/i; alert(re.test(str));//true str="Certainly!Helovesher!"; alert(re.test(str));//true,只要包含he(HE)就符合,如果要只是he或HE,不能有其它字符,则可使用^和$ re=/^he/i;//脱字符(^)代表字符开始位置 alert(re.test(str));//false,因为he不在str最开始 str="Heisagoodboy!"; alert(re.test(str));//true,He是字符开始位置,还需要使用$ re=/^he$/i;//$表示字符结束位置 alert(re.test(str));//false str="He"; alert(re.test(str));//true
//当然,这样不能发现正则表达式有多强大,因为我们完全可以在上面的例子中使用==或indexOf
re=/\s/; //\s匹配任何空白字符,包括空格、制表符、换页符等等 str="userName";//用户名包含空格 alert(re.test(str));//true str="userName";//用户名包含制表符 alert(re.test(str));//true re=/^[a-z]/i;//[]匹配指定范围内的任意字符,这里将匹配英文字母,不区分大小写 str="variableName";//变量名必须以字母开头 alert(re.test(str));//true str="123abc"; alert(re.test(str));//false
当然,仅仅知道了字符串是否匹配模式还不够,我们还需要知道哪些字符匹配了模式
Js代码
varosVersion="Ubuntu8";//其中的8表示系统主版本号 varre=/^[a-z]+\s+\d+$/i;//+号表示字符至少要出现1次,\s表示空白字符,\d表示一个数字 alert(re.test(osVersion));//true,但我们想知道主版本号 //另一个方法exec,返回一个数组,数组的第一个元素为完整的匹配内容 re=/^[a-z]+\s+\d+$/i; arr=re.exec(osVersion); alert(arr[0]);//将osVersion完整输出,因为整个字符串刚好匹配re //我只需要取出数字 re=/\d+/; vararr=re.exec(osVersion); alert(arr[0]);//8
更复杂的用法,使用子匹配
Js代码
//exec返回的数组第1到n元素中包含的是匹配中出现的任意一个子匹配 re=/^[a-z]+\s+(\d+)$/i;//用()来创建子匹配 arr=re.exec(osVersion); alert(arr[0]);//整个osVersion,也就是正则表达式的完整匹配 alert(arr[1]);//8,第一个子匹配,事实也可以这样取出主版本号 alert(arr.length);//2 osVersion="Ubuntu8.10";//取出主版本号和次版本号 re=/^[a-z]+\s+(\d+)\.(\d+)$/i;//.是正则表达式元字符之一,若要用它的字面意义须转义 arr=re.exec(osVersion); alert(arr[0]);//完整的osVersion alert(arr[1]);//8 alert(arr[2]);//10
注意,当字符串不匹配re时,exec方法将返回null
String对象的一些和正则表达式有关的方法
Js代码
//replace方法,用于替换字符串 varstr="somemoney"; alert(str.replace("some","much"));//muchmoney //replace的第一个参数可以为正则表达式 varre=/\s/;//空白字符 alert(str.replace(re,"%"));//some%money //在不知道字符串中有多少空白字符时,正则表达式极为方便 str="somesome\tsome\t\f"; re=/\s+/; alert(str.replace(re,"#"));//但这样只会将第一次出现的一堆空白字符替换掉 //因为一个正则表达式只能进行一次匹配,\s+匹配了第一个空格后就退出了 re=/\s+/g;//g,全局标志,将使正则表达式匹配整个字符串 alert(str.replace(re,"@"));//some@some@some@ //另一个与之相似的是split varstr="a-bd-c"; vararr=str.split("-");//返回["a","bd","c"] //如果str是用户输入的,他可能输入a-bd-c也可能输入abdc或a_bd_c,但不会是abdc(这样就说他输错了) str="a_db-c";//用户以他喜欢的方式加分隔符s re=/[^a-z]/i;//前面我们说^表示字符开始,但在[]里它表示一个负字符集 //匹配任何不在指定范围内的任意字符,这里将匹配除字母处的所有字符 arr=str.split(re);//仍返回["a","c"]; //在字符串中查找时我们常用indexOf,与之对应用于正则查找的方法是search str="Myageis18.Goldenage!";//年龄不是一定的,我们用indexOf不能查找它的位置 re=/\d+/; alert(str.search(re));//返回查找到的字符串开始下标10 //注意,因为查找本身就是出现第一次就立即返回,所以无需在search时使用g标志 //下面的代码虽然不出错,但g标志是多余的 re=/\d+/g; alert(str.search(re));//仍然是10
注意,当search方法没有找到匹配时,将返回-1
类似于exec方法,String对象的match方法也用于将字符串与正则表达式进行匹配并返回结果数组
Js代码
varstr="MynameisCJ.Helloeveryone!"; varre=/[A-Z]/;//匹配所有大写字母 vararr=str.match(re);//返回数组 alert(arr);//数组中只会包含一个M,因为我们没有使用全局匹配 re=/[A-Z]/g; arr=str.match(re); alert(arr);//M,C,J,H //从字符串中抽取单词 re=/\b[a-z]*\b/gi;//\b表示单词边界 str="onetwothreefour"; alert(str.match(re));//one,two,three,four
RegExp对象实例的一些属性
Js代码
varre=/[a-z]/i; alert(re.source);//将[a-z]字符串输出 //请注意,直接alert(re)会将正则表达式连同前向斜线与标志输出,这是re.toString方法定义的
每个RegExp对象的实例具有lastIndex属性,它是被查找字符串中下一次成功匹配的开始位置,默认值是-1。 lastIndex 属性被RegExp 对象的 exec 和 test 方法修改.并且它是可写的.
Js代码
varre=/[A-Z]/; //exec方法执行后,修改了re的lastIndex属性,varstr="Hello,World!!!"; vararr=re.exec(str); alert(re.lastIndex);//0,因为没有设置全局标志 re=/[A-Z]/g; arr=re.exec(str); alert(re.lastIndex);//1 arr=re.exec(str); alert(re.lastIndex);//7
当匹配失败(后面没有匹配),或lastIndex值大于字符串长度时,再执行exec等方法会将lastIndex设为0(开始位置)
Js代码
varre=/[A-Z]/; varstr="Hello,World!!!"; re.lastIndex=120; vararr=re.exec(str); alert(re.lastIndex);//0
RegExp对象的静态属性
Js代码
//input最后用于匹配的字符串(传递给test,exec方法的字符串) varre=/[A-Z]/; varstr="Hello,World!!!"; vararr=re.exec(str); alert(RegExp.input);//Hello,World!!! re.exec("tempstr"); alert(RegExp.input);//仍然是Hello,World!!!,因为tempstr不匹配 //lastMatch最后匹配的字符 re=/[a-z]/g; str="hi"; re.test(str); alert(RegExp.lastMatch);//h re.test(str); alert(RegExp["$&"]);//i,$&是lastMatch的短名字,但由于它不是合法变量名,所以要。。 //lastParen最后匹配的分组 re=/[a-z](\d+)/gi; str="Class1Class2Class3"; re.test(str); alert(RegExp.lastParen);//1 re.test(str); alert(RegExp["$+"]);//2 //leftContext返回被查找的字符串中从字符串开始位置到最后匹配之前的位置之间的字符 //rigthContext返回被搜索的字符串中从最后一个匹配位置开始到字符串结尾之间的字符 re=/[A-Z]/g; str="123ABC456"; re.test(str); alert(RegExp.leftContext);//123 alert(RegExp.rightContext);//BC456 re.test(str); alert(RegExp["$`"]);//123A alert(RegExp["$'"]);//C456
multiline属性返回正则表达式是否使用多行模式,这个属性不针对某个正则表达式实例,而是针对所有正则表达式,并且这个属性可写.(IE与Opera不支持这个属性)
Js代码
alert(RegExp.multiline); //因为IE,Opera不支持这个属性,所以最好还是单独指定 varre=/\w+/m; alert(re.multiline); alert(RegExp["$*"]);//RegExp对象的静态属性不会因为给RegExp某个对象实例指定了m标志而改变 RegExp.multiline=true;//这将打开所有正则表达式实例的多行匹配模式 alert(RegExp.multiline);
使用元字符注意事项:元字符是正则表达式的一部分,当我们要匹配正则表达式本身时,必须对这些元字符转义.下面是正则表达式用到的所有元字符
( [ { \ ^ $ | ) ? * + .
Js代码
varstr="?"; varre=/?/; alert(re.test(str));//出错,因为?是元字符,必须转义 re=/\?/; alert(re.test(str));//true
使用RegExp构造函数与使用正则表达式字面量创建正则表达式注意点
Js代码
varstr="\?"; alert(str);//只会输出? varre=/\?/;//将匹配? alert(re.test(str));//true re=newRegExp("\?");//出错,因为这相当于re=/\?/ re=newRegExp("\\?");//正确,将匹配? alert(re.test(str));//true
既然双重转义这么不友好,所以还是用正则表达式字面量的声明方式
如何在正则表达式中使用特殊字符?
Js代码
//ASCII方式用十六进制数来表示特殊字符 varre=/^\x43\x4A$/;//将匹配CJ alert(re.test("CJ"));//true //也可使用八进制方式 re=/^\103\112$/;//将匹配CJ alert(re.test("CJ"));//true //还可以使用Unicode编码 re=/^\u0043\u004A$/;//使用Unicode,必须使用u开头,接着是字符编码的四位16进制表现形式 alert(re.test("CJ"));
另处,还有一些其它的预定义特殊字符,如下表所示:
字符 描述 \n 换行符 \r 回车符 \t 制表符 \f 换页符(Tab) \cX 与X对应的控制字符 \b 退格符(BackSpace) \v 垂直制表符 \0 空字符("") 字符类 ---〉简单类,反向类,范围类,组合类,预定义类
Js代码
//简单类 varre=/[abc123]/;//将匹配abc123这6个字符中一个 //负向类 re=/[^abc]/;//将匹配除abc之外的一个字符 //范围类 re=/[a-b]/;//将匹配小写a-b26个字母 re=/[^0-9]/;//将匹配除0-910个字符之处的一个字符 //组合类 re=/[a-b0-9A-Z_]/;//将匹配字母,数字和下划线
下面是正则表达式中的预定义类
代码 等同于匹配
. IE下[^\n],其它[^\n\r] 匹配除换行符之外的任何一个字符 \d[0-9]匹配数字 \D[^0-9]匹配非数字字符 \s [\n\r\t\f\x0B] 匹配一个空白字符 \S [^ \n\r\t\f\x0B]匹配一个非空白字符 \w[a-zA-Z0-9_] 匹配字母数字和下划线 \W[^a-zA-Z0-9_] 匹配除字母数字下划线之外的字符
量词(下表量词单个出现时皆是贪婪量词)
代码 描述
* 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。 * 等价于{0,}。
+ 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于{1,}。
? 匹配前面的子表达式零次或一次。例如,"do(es)?"可以匹配 "do" 或"does" 中的"do" 。? 等价于 {0,1}。
{n} n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。
{n,} n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
{n,m} m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。刘,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。
贪婪量词与惰性量词
•用贪婪量词进行匹配时,它首先会将整会字符串当成一个匹配,如果匹配的话就退出,如果不匹配,就截去最后一个字符进行匹配,如果不匹配,继续将最后一个字符截去进行匹配,直到有匹配为止。直到现在我们遇到的量词都是贪婪量词
•用惰性量词进行匹配时,它首先将第一个字符当成一个匹配,如果成功则退出,如果失败,则测试前两个字符,依些增加,直到遇到合适的匹配为止
惰性量词仅仅在贪婪量词后面加个"?"而已,如"a+"是贪婪匹配的,"a+?"则是惰性的
Js代码
varstr="abc"; varre=/\w+/;//将匹配abc re=/\w+?/;//将匹配a
多行模式
Js代码
varre=/[a-z]$/; varstr="ab\ncdef"; alert(str.replace(re,"#"));//ab\ncde# re=/[a-z]$/m; alert(str.replace(re,"#"));//a#\ncde# 分组与非捕获性分组 Js代码 re=/abc{2}/;//将匹配abcc re=/(abc){2}/;//将匹配abcabc //上面的分组都是捕获性分组 str="abcabc###"; arr=re.exec(str); alert(arr[1]);//abc //非捕获性分组(?:) re=/(?:abc){2}/; arr=re.exec(str); alert(arr[1]);//undefined
候选(也就是所说的“或”)
Js代码
re=/^a|bc$/;//将匹配开始位置的a或结束位置的bc str="add"; alert(re.test(str));//true re=/^(a|bc)$/;//将匹配a或bc str="bc"; alert(re.test(str));//true
当包含分组的正则表达式进行过test,match,search这些方法之后,每个分组都被放在一个特殊的地方以备将来使用,这些存储是分组中的特殊值,我们称之为反向引用
Js代码
varre=/(A?(B?(C?)))/; /*上面的正则表达式将依次产生三个分组 (A?(B?(C?)))最外面的 (B?(C?)) (C?)*/ str="ABC"; re.test(str);//反向引用被存储在RegExp对象的静态属性$1—$9中 Alert(RegExp.$1+"\n"+RegExp.$2+"\n"+RegExp.$3); //反向引用也可以在正则表达式中使用\1,\2...这类的形式使用 re=/\d+(\D)\d+\1\d+/; str="2008-1-1"; alert(re.test(str));//true str="2008-4_3"; alert(re.test(str));//false
使用反向引用可以要求字符串中某几个位置上的字符必须相同.另外,在replace这类方法中可用特殊字符序列来表示反向引用
Js代码
re=/(\d)\s(\d)/; str="12345678"; alert(str.replace(re,"$2$1"));//在这个里面$1表示第一个分组1234,$2则表示5678
其它——〉正向前瞻,用来捕获出现在特定字符之前的字符,只有当字符后面跟着某个特定字符才去捕获它。与正向前瞻对应的有负向前瞻,它用匹配只有当字符后面不跟着某个特定字符时才去匹配它。在执行前瞻和负向前瞻之类的运算时,正则表达式引擎会留意字符串后面的部分,然而却不移动index
Js代码
//正向前瞻 re=/([a-z]+(?=\d))/i; //我们要匹配后面跟一个数字的单词,然后将单词返回,而不要返回数字 str="abcevery1abc"; alert(re.test(str));//true alert(RegExp.$1);//every alert(re.lastIndex);//使用前瞻的好处是,前瞻的内容(?=\d)并不会当成一次匹配,下次匹配仍从它开始 //负向前瞻(?!) re=/([a-z](?!\d))/;i //将匹配后面不包含数字的字母,并且不会返回(?!\d)中的内容 str="abc1one"; alert(re.test(str)); alert(RegExp.$1);//one
构建一个验证电子邮箱地址有效性的正则表达式。电子邮箱地址有效性要求(我们姑且这样定义):用户名只能包含字母数字以及下划线,最少一位,最多25位,用户名后面紧跟@,后面是域名,域名名称要求只能包含字母数字和减号(-),并且不能以减号开头或结尾,然后后面是域名后缀(可以有多个),域名后缀必须是点号连上2-4位英文字母
手机号码正则表达式验证。
function checkPhone(){ var phone = document.getElementById('phone').value; if(!(/^1[34578]\d{9}$/.test(phone))){ alert("手机号码有误,请重填"); return false; } }
或者
function checkPhone(){ var phone = document.getElementById('phone').value; if(!(/^1(3|4|5|7|8)\d{9}$/.test(phone))){ alert("手机号码有误,请重填"); return false; } }
下面简单的解释一下:
^1(3|4|5|7|8)\d{9}$
表示以1开头,第二位可能是3/4/5/7/8等的任意一个,在加上后面的\d表示数字[0-9]的9位,总共加起来11位结束。
固定电话号码正则表达式:
function checkTel(){ var tel = document.getElementById('tel').value; if(!/^(\(\d{3,4}\)|\d{3,4}-|\s)?\d{7,14}$/.test(tel)){ alert('固定电话有误,请重填'); return false; } }
身份证正则:
//身份证正则表达式(15位) isIDCard1=/^[1-9]\d{7}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{3}$/; //身份证正则表达式(18位) isIDCard2=/^[1-9]\d{5}[1-9]\d{3}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{4}$/; 身份证正则合并:(^\d{15}$)|(^\d{17}([0-9]|X)$)
其他
提取信息中的网络链接:(h|H)(r|R)(e|E)(f|F) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)? 提取信息中的邮件地址:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)* 提取信息中的图片链接:(s|S)(r|R)(c|C) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)? 提取信息中的IP地址:(\d+)\.(\d+)\.(\d+)\.(\d+) 提取信息中的中国电话号码(包括移动和固定电话):(\(\d{3,14} 提取信息中的中国邮政编码:[1-9]{1}(\d+){5} 提取信息中的中国身份证号码:\d{18}|\d{15} 提取信息中的整数:\d+ 提取信息中的浮点数(即小数):(-?\d*)\.?\d+ 提取信息中的任何数字 :(-?\d*)(\.\d+)? 提取信息中的中文字符串:[\u4e00-\u9fa5]* 提取信息中的双字节字符串 (汉字):[^\x00-\xff]*
使用:
test()方法在字符串中查找是否存在指定的正则表达式,并返回布尔值,如果存在则返回true,否则返回false。
var pattern = new RegExp('Box','i'); var str = 'Box'; alert(pattern.test(str)); //true var pattern = /Box/i; var str = 'Box'; alert(pattern.test(str)); //true var pattern = /Box/i; var str = 'This is a Box'; alert(pattern.test(str)); //true