在lex说明文件中指定扩展的正则表达式与在sed或者ed命令中所使用的方法相似。
扩展的正则表达式指定了要匹配的字符串的集合。表达式包含文本字符和运算符字符。文本字符与正在被比较的字符串中的相应字符匹配。运算符字符指定重复次数、选项和其他功能。
数字和字母表的字母被认为是文本字符。例如,扩展的正则表达式integer与字符串integer匹配,表达式a57D搜索字符串a57D。
注意:/约束条件/,//之间的是约束条件,^是开始字符,$是结束字符,不起作用的情况下可以前面加^,并以+$是结束字符
1、。句点符号表示任意一个字符;
2、[ ]方括号表示匹配可以匹配方括号中的任意点单个字符,方括号只允许匹配单个字符。
3、| “或”符号表示小括号的任意一组字符,它不能和方括号使用,只能和小括号使用。
4、表示匹配次数的符号,它们都是对前面的指定字符起作用
*:表示匹配0次或多次
?:表示匹配0次或一次
+:表示至少匹配一次
{n}:表示匹配n次
{n,m}:表示从n次到m次
5、“否”符号“^”符号称为“否”符号。如果用在方括号内,“^”表示不想要匹配的字符。
6、边界匹配符
^一行的开始
$一行的结尾
\b一个单词的边界
\B一个非单词的边界
\G前一个匹配的结束
7、转义字符
转义符号“\”转义后代表的含义如下:
s:匹配单个的空格符
S:用于匹配除单个空格符之外的所有字符。
d:用于匹配从0到9的数字,相当于“/[0-9]/”。
w:用于匹配字母,数字或下划线字符,相当于“/[a-zA-Z0-9_]/”。
W:用于匹配所有与w不匹配的字符,相当于“/[^a-zA-Z0-9_]/”。
D:用于匹配任何非10进制的数字字符。
.:用于匹配除换行符之外的所有字符,如果经过修饰符“s”的修饰,“.”可以代表任意字符。
常见实例:
1、非空匹配:/\S+/
2、表示字符串不含空格:^[\s]*$
3、如果想不包括空格及其它空白字符^[^\s]*$
4、要插入一个反斜杠,那就得用"\\\\",尤其在java代码中。关于unicode的编码可以查看电脑菜单中的
附件——系统工具——字符映射表,注意要判断字符串中是中括号“[”和“]”,在java代码中采用这样的方法:(加两个\\)String constraint = "^[\\u005b\\u005d]+$";
5、数字和字母的组合,不能只是数字或只是字母:/(?!^[0-9]*$)(?!^[a-zA-Z]*$)^([a-zA-Z0-9]{2,})$/
6、字符串是否为连续的中文字符(不包含英文及其他任何符号和数字):/^[\u4e00-\u9fa5]+$/
7、输入必须是双字节字符:/^[^\x00-\xff]+$/
8、不能输入中文/^[^\u4e00-\u9fa5]+$/(中文字符不止\u4E00-\u9FA5这个区,还有\uF900-\uFA2D这个区)
9、字符串仅包含英文,不包含其它的:/^[a-zA-Z]+$/
10、字符串仅包含数字,不包含其它的:/^\d+$/
11、字符串仅包含数字、英文和下划线:/^\w+$/
12、字符串仅包含数字、英文和下划线且不能为空:/\w+/
13、字符串仅包含数字、英文和下划线和空格:/^[\w\s]+$/
14、小数点后只能两位,如果小数点后便没有数字的话,不能出现小数点:/^[0-9]+$|^[0-9]+\.[0-9]{1,2}$/
15、可包含大小写英文字母,数字,字符_,字符-:^[A-Za-z0-9_-]+$
16、字符串仅包含数字、英文且不能为空/^[0-9a-zA-Z_]*$/
17、输入只包含中文、数字和字母:/^[a-z\A-Z\d\u4E00-\u9FA5]+$/
18、字母和数字的组合,不能单独输入字母或数字:/(?!^[0-9]*$)(?!^[a-zA-Z]*$)^([a-zA-Z0-9]{2,51); font-family:Arial; font-size:14.399999618530273px; line-height:26px"> 19、输入字母和数字的组合,6位到15位:/([a-zA-Z0-9]{6,15})?/
20、电话号码的验证:/([0-9]{3,4}[-][0-9]{6,8}([-][0-9]{3,6})?)?/
21、电子邮件的验证:/(\w+@(\w+\.)+\w{2,3})?/
22、Ip地址的验证表达式:/((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)/
23、必须为正数,且数字第一个不能为0:/^([1-9][0-9]*)$/
24、日期判断正则表达式:
YYYY-MM-DD基本上把闰年和2月等的情况都考虑进去了
^((((1[6-9]|[2-9]\d)\d{2})-(0?[13578]|1[02])-(0?[1-9]|[12]\d|3[01]))|(((1[6-9]|[2-9]\d)\d{2})-(0?[13456789]|1[012])-(0?[1-9]|[12]\d|30))|(((1[6-9]|[2-9]\d)\d{2})-0?2-(0?[1-9]|1\d|2[0-8]))|(((1[6-9]|[2-9]\d)(0[48]|[2468][048]|[13579][26])|((16|[2468][048]|[3579][26])00))-0?2-29-))$
下面的是加了时间验证的
^((((1[6-9]|[2-9]\d)\d{2})-(0?[13578]|1[02])-(0?[1-9]|[12]\d|3[01]))|(((1[6-9]|[2-9]\d)\d{2})-(0?[13456789]|1[012])-(0?[1-9]|[12]\d|30))|(((1[6-9]|[2-9]\d)\d{2})-0?2-(0?[1-9]|1\d|2[0-8]))|(((1[6-9]|[2-9]\d)(0[48]|[2468][048]|[13579][26])|((16|[2468][048]|[3579][26])00))-0?2-29-)) (20|21|22|23|[0-1]?\d):[0-5]?\d:[0-5]?\d$
25、只能输入数字:“^[0-9]*$”
26、只能输入n位的数字:“^\d{n}$”
27、只能输入至少n位数字:“^\d{n,}$”
28、只能输入m-n位的数字:“^\d{m,n}$”
29、只能输入零和非零开头的数字:“^(0|[1-9][0-9]*)$”
30、只能输入有两位小数的正实数:“^[0-9]+(.[0-9]{2})?$”
31、只能输入有1-3位小数的正实数:“^[0-9]+(.[0-9]{1,3})?$”
32、只能输入非零的正整数:“^\+?[1-9][0-9]*$”
33、只能输入非零的负整数:“^\-[1-9][0-9]*$”
34、只能输入长度为3的字符:“^.{3}$”
35、只能输入由26个英文字母组成的字符串:“^[A-Za-z]+$”
36、只能输入由26个大写英文字母组成的字符串:“^[A-Z]+$”
37、只能输入由26个小写英文字母组成的字符串:“^[a-z]+$”
38、只能输入由数字和26个英文字母组成的字符串:“^[A-Za-z0-9]+$”
39、只能输入由数字、26个英文字母或者下划线组成的字符串:“^\w+$”
40、匹配特定数字:
^[1-9]d*$ //匹配正整数
^-[1-9]d*$ //匹配负整数
^-?[1-9]d*$ //匹配整数
Pattern p = Pattern.compile("^(-?[1-9]\\d*)|0|[1-9]\\d*+$");
^[1-9]d*|0$ //匹配非负整数(正整数+ 0)
^-[1-9]d*|0$ //匹配非正整数(负整数+ 0)
^[1-9]d*.d*|0.d*[1-9]d*$ //匹配正浮点数
^-([1-9]d*.d*|0.d*[1-9]d*)$ //匹配负浮点数
^-?([1-9]d*.d*|0.d*[1-9]d*|0?.0+|0)$ //匹配浮点数
^[1-9]d*.d*|0.d*[1-9]d*|0?.0+|0$ //匹配非负浮点数(正浮点数+ 0)
^(-([1-9]d*.d*|0.d*[1-9]d*))|0?.0+|0$ //匹配非正浮点数(负浮点数+ 0)
41、验证用户密码:“^[a-zA-Z]\w{5,17}$”正确格式为:以字母开头,长度在6-18之间,只能包含字符、数字和下划线。
42、验证是否含有^%&',;=?$\"等字符:“[^%&',;=?$\x22]+”
43、只能输入汉字:“^[\u4e00-\u9fa5],{0,51); font-family:Arial; font-size:14.399999618530273px; line-height:26px"> 44、验证Email地址:“^\w+[-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
45、验证Email地址:/.+@.+\.[a-z]+/
46、验证InternetURL:“^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$”
47、验证电话号码:“^(\(\d{3,4}\)|\d{3,4}-)?\d{7,8}$”正确格式为:“XXXX-XXXXXXX”,“XXXX-XXXXXXXX”,“XXX-XXXXXXX”,“XXX-XXXXXXXX”,“XXXXXXX”,“XXXXXXXX”。
48、匹配国内电话号码:d{3}-d{8}|d{4}-d{7}匹配形式如0511-4405222或021-87888822
49、验证身份证号(15位或18位数字):“^\d{15}|\d{}18$”
50、验证一年的12个月:“^(0?[1-9]|1[0-2])$”正确格式为:“01”-“09”和“1”“12”
51、验证一个月的31天:“^((0?[1-9])|((1|2)[0-9])|30|31)$”正确格式为:“01”“09”和“1”“31”。
52、匹配空行的正则表达式:/\n[\s| ]*\r/可以用来删除空白行
53、匹配HTML标记的正则表达式:/<(.*)>.*<\/\1>|<(.*) \/>/
54、匹配首尾空格的正则表达式:/(^\s*)|(\s*$)/
55、匹配腾讯QQ号:[1-9][0-9]{4,}腾讯QQ号从10000开始
56、匹配中国邮政编码:[1-9]d{5}(?!d)中国邮政编码为6位数字
57、匹配帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
58、验证录入的数据只能介于114-116之间,包括小数:/^(114|115|116)(\.\d+)?$/
运算符
- Character
- 与字符 Character
- " String"
-
匹配引号中扩起来的字符串,即使字符串包含运算符。
示例:要阻止lex命令将$(美元符号)解释为运算符,请将该符号括在引号中。
- \ Character或 \ Digits
-
转义字符。当位于字符串中使用的字符类运算符之前时,
\字符表明运算符符号代表文字字符,而不是运算符。有效转义序列包括:
- \ a
- 提醒
- \ b
- 退格
- \ f
- 换页
- \ n
- 换行符(不要在表达式中使用真正的换行符。)
- \ r
- 返回
- \ t
- 跳格
- \ v
- 纵向制表符
- \\
- 反斜杠
- \ Digits
- 其编码由 Digits字符串指定的一位、两位或者三位八进制整数所表示的字符。
- \ x Digits
-
其编码由
Digits字符串指定的十六进制字符序列所表示的字符。
当\字符位于某字符前面,而该字符不在前面的转义序列列表中,那么lex命令按字面解释字符。
示例:\c被解释为c字符不变,[\^abc]表示包含字符^abc的字符类。
注:千万不要在 lex命令中使用 \0 或者 \ x0。
- [ List]
-
基于
lex命令被调用的语言环境,与被扩起来的范围 (
[
x-
y
]) 或者被扩起来的列表 (
[
xyz
]) 中的任一字符匹配。所有运算符符号(除了下述例外)在括号表达式中失去它们的特殊含义:
-(短划线)、
^(插入标记)和
\(反斜杠)。
示例:[abc-f]与 en_US 语言环境中的a、b、c、d、e或f匹配。
- [: Class :]
-
如当前语言环境中的 LC_TYPE 类别中所定义的,与属于
[::]定界符之间所指定的字符类的任何字符匹配。下面的字符类名称被所有的语言环境所支持:
<code style="font-family: 'MS Courier New',monospace;"><span class="ph b" style="font-weight: bold;">alnum cntrl lower space alpha digit print upper blank graph punct xdigit</span></code>
lex命令还识别用户定义的字符类名。[::]运算符仅在[]表达式中有效。
示例:在当前语言环境中,[[:alpha:]]与alpha字符类中的任何都字符匹配,但是[:alpha:]仅与字符:、a、l、p和h匹配。
- [. CollatingSymbol .]
-
作为单个字符与
[..]定界符中指定的整理符号匹配。
[..]运算符仅在
[
]表达式中有效。对于当前语言环境,整理符号必须是有效整理符号。
示例:[[.ch.]]与c和h都匹配,但是[ch]则与c或h匹配。
- [= CollatingElement =]
-
与
[==]定界符中指定的整理元素以及属于其等价类的所有整理元素匹配。
[==]运算符仅在
[]表达式中有效。
示例:如果w和v属于同一个等价类,那么[[=w=]]与[wv]相同并且与w或者v匹配。如果w不属于等价类,那么[[=w=]]仅与w匹配。
- [^ Character ]
-
与除了
^(插入标记)后的字符之外的任何字符匹配。结果字符类仅由单字节字符组成。
^符号后面的字符可以是多字节字符。但是,要此运算符与多字节字符匹配,您必须在定义部分将
%h和
%m设为大于零。
示例:[^c]与c之外的任何字符匹配。
- CollatingElement - CollatingElement
- 在字符类中,指示为当前语言环境定义的整理顺序中的字符范围。范围必须为升序。结束范围点必须核对与起始范围点相等或者更高。因为范围基于当前语言环境的整理顺序,所给的范围可能与不同的字符匹配,这取决于调用 lex命令的语言环境。
- Expression ?
-
与
?运算符前紧挨着的表达式的零个或一个具体值匹配。
示例:ab?c与 ac 或 abc 匹配。
- 句点字符 (.)
- 与换行符以外的任何字符匹配。为了使句点字符 ( .) 与多字节字符匹配,必须在 lex说明文件的定义部分中将 %z设为大于 0。如果未设置 %z,那么句点字符 (.) 仅与单字节字符匹配。
- Expression *
-
与
*运算符之前紧挨着的表达式的零个或更多具体值匹配。例如,
a*为任意数目(包括零个)连续的
a字符。在复杂表达式中与零个具体值匹配的作用更明显。
示例:表达式[A-Za-z][A-Za-z0-9]* 指示以字母字符开头的所有字母数字字符串,包括仅为一个字母字符的字符串。您能使用该表达式识别使用计算机语言的标识。
- Expression +
-
与
+运算符之前紧挨着的模式的一个或更多具体值匹配。
示例:a+与一个或者更多a的实例匹配。同样,[a-z]+与所有小写字母字符串匹配。
- Expression | Expression
-
指示与 |(管道)运算符之前或之后的表达式匹配。
示例:ab|cd与ab或者cd匹配。
- ( Expression )
-
与圆括号中的表达式匹配。
()(圆括号)运算符用于分组,并使圆括号中的表达式被读入
yytext数组。圆括号中的组可用于代替任何其他模式的任何单个字符。
示例:(ab|cd+)?(ef)*与诸如以下的字符串匹配:abefef、efefef、cdef或者cddd;但是与abc、abcd或者abcdef不匹配。
- ^ Expression
-
仅当
Expression在行起始处且
^(插入标记)运算符是表达式中的第一个字符时指示匹配。
示例:^h与行首的h匹配。
- Expression $
-
仅当
Expression在行末尾且
$(美元符号)运算符是表达式的最后一个字符时指示匹配。
示例:h$与行尾的h匹配。
- Expression1 / Expression2
-
仅当
Expression2紧跟在
Expression1之后时指示匹配。
/(斜杠)运算符仅将第一个表达式读入
yytext数组。
示例:ab/cd与字符串ab匹配,但后面必须跟有cd,然后才会将ab读到yytext数组。
注:在单个扩展的正则表达式中仅能使用一个 /尾部上下文运算符。 ^(插入标记)和 $(美元符号)运算符不可与 /运算符用于同一个表达式,因为它们指示尾部上下文的特殊情况。 - { DefinedName }
-
与您在定义部分定义的名称匹配。
示例:如果您定义D为数字,那么{D}匹配所有的数字。
- { Number1 , Number2 }
-
与它前面紧挨着的模式的
Nubmer1到
Number2的具体值匹配。允许使用表达式
{
Number
}和
{
Number
,},它们精确匹配表达式前的模式的
Number的具体值。
示例:xyz{2,4}与 xyzxyz、xyzxyzxyz 或 xyzxyzxyzxyz 匹配。这有别于+、*和?运算符,因为这些运算符仅与紧挨着前面的字符匹配。要仅与时间间隔表达式前的字符匹配,请使用分组运算符。例如,xy(z{2,4})与 xyzz、xyzzz 或者 xyzzzz 匹配。
- < StartCondition >
-
只有在词法分析器位于指示的启动条件中时,才执行关联的操作。
示例:如果行首是启动条件ONE,那么^(插入标记)运算符等于表达式<ONE>。
可以给字符串的一部分加引号。给普通的文本字符加引号不起作用。例如,下面的表达式与前面的示例相等:
要确保文本被解释为文本,请给不是字母或者数字的所有字符加引号。
原文链接:https://www.f2er.com/regex/361584.html