我获得了关于许多现代语言中正则表达式实现的以下文章的链接.
http://swtch.com/~rsc/regexp/regexp1.html
TL; DNR:固定$n $的某些正则表达式,如(a?)^ na ^ n取指数时间匹配,例如,^ n,因为它在匹配时通过字符串的追溯来实现?部分.通过保持状态列表将其作为NFA来实现,这显然是因为明显的原因
每个语言实际实现这些的细节不是非常详细(而且文章很旧),但我很好奇:使用NFA而不是其他实现技术的缺点是什么?我唯一可以想出的是,大多数图书馆的所有钟声和口哨声都是:a)为所有这些功能构建NFA是不切实际的或者b)上面的表达和其他一些可能更多的表现问题常见,操作.
虽然可以很好地构建处理这些复杂情况的DFA(由Henry Spencer编写的
Tcl RE engine是一个例证证明;文章链接表明了它与其性能数据),但也非常困难.
一个关键的事情是,如果你可以检测到你不需要匹配的组信息,那么你可以(对于许多RE,特别是那些没有内部反向引用的RE),将RE转换为仅使用括号进行分组的RE,从而允许更有效的RE被生成(so(a?){n} a {n} – 我使用现代常规语法 – 变得有效地等效于{n,2n}).反向引用突破了主要优化;在亨利的RE代码(以上提到)中并没有什么是代码注释,将其描述为“黑色泻湖的特征”.这是我在代码中阅读的最好的评论之一(除了引用描述算法编码的学术论文).
另一方面,具有递归下降评估方案的Perl / PCRE风格引擎可以将一组更为语法的语义归结为混合的贪婪RE,还有许多其他的东西. (在最后端,递归模式 – (?R)等是完全不可能的自动机理论方法,它们需要一个堆栈来匹配,使它们正式不是正则表达式.)
在实际层面上,构建NFA和DFA的成本可能相当高.您需要聪明的缓存才能使其不太贵.而且在实际的层面上,PCRE和Perl的实现已经有更多的开发人员应用于它们.