正则语言的并交差

本文转载于我自己的官方网站：nfabo.cn

正则语言的并交差

作者: rockeet发表日期: 2014年09月08日分类: 自动机评论: 0条阅读次数: 7 次 [编辑]

正则表达式，描述的是正则语言，学过形式语言与自动机理论的人应该都知道，正则语言在并、交、差、补运算下都是封闭的；但是，根据Wikipedia的描述，到目前为止，还没有任何一个已知的正则语法(Flavor)将交和差纳入正则语法。理论与实践之间竟然隔着这么巨大的鸿沟！

虽然 Perl 正则中支持的环视(Look Around)在某种意义上可以认为是交和差的受限子集，之所以说是受限，因为你无法自由组合并交差操作。另一方面，环视在这些引擎中都是以回溯的方式实现的，效率十分低下。

其实，不光正则语言在补运算下都是封闭的，而且，用来表达正则语言的 DFA 可以比较高效地实现这些操作，对比 NFA 转 DFA 的 O(2ⁿ)，并交差的复杂度是O(n*m)，补的复杂度是O(n)；这比 O(2ⁿ) 要乐观地多，而且，这只是最坏情况下的复杂度，现实中很多时候都是 O(n^1+ε)，这其中的 ε 往往接近于0，NFA 转 DFA 的最坏 O(2ⁿ)在现实中也往往是O(n^1+ε)，不过这个 ε 往往要大一些。

经过一番努力，我填补了交、差这个鸿沟，为了语言的完备性和易用性，同时也实现了传统正则的连接、重复，为了区别于传统的RegEx，暂且把它叫RegEx++。

在语言设计上，一方面为了避免处理无比复杂的转义、字符类、unicode之类的泥潭，另一方面也为了兼容传统的正则，我设计的RegEx++语言分为两部分，一部分是去除了环视和反向引用的Perl正则(re2语法)，一部分是RegEx++特有的重复。

以 BNF 范式表达

Union  :=Inter{'||'Union}
Inter  :=ConCat{'&&'ConCat|'&!'ConCat}
ConCat :=Repeat{Repeat}
Repeat :=Atom['?'|'*'|'+'|Range]
Atom   :='{{'Regex'}}'|'('Union')'
Range  :='{'Min[','Max]|','Max'}'

用更通俗的方式表达

优先级	操作符	说明
最高	{{Plain Old Regex}}	{{}}括起来的部分是传统的正则表达式，使用 re2 的 Parser 解析
较高	( )	调整优先级
高	?	重复:0次或1次	语法和意义与传统正则相同
	*	重复:0次或多次
	+	重复:1次或多次
	{min,max}	重复:最少min次，最多max次
中	无操作符	连接，连着写就行
较低	&&	交，x && y 表示既能匹配 x 又能匹配 y
	&!	差，x &! y 表示能匹配 x 但不能匹配 y
最低	\|\|	并，x \|\| y 表达能匹配 x 或者能匹配 y

这里面唯一比较别扭的是{{ }}括起来的Plain Old Regex，值得一提的是，{{和}}，用来括住正则表达式(re2语法)，一个语法正确并且规范的正则表达式中不会出现}}，只有一个例外：\{{，这个例外很容易处理。其实严格讲，语法正确的正则表达式中可以出现}}，但这样正则表达式往往是有问题的，{和}用作非元字符时，需要转义（\{和\}），而{和}不转义时是元字符，不会出现}}，Plain Old Regex允许未转义的{和}是为了最大限度地“容忍错误”，传统正则语法甚至容忍这样的正则:[[[[]*，还有]{{1-2}，你知道这都是什么意思吗？

最后

通过这个测试页面可以看到一些例子和相应的 DFA/NFA 状态转移图。

正则语言的 并 交 差

本文转载于我自己的官方网站：nfabo.cn