构建基于正则表达式的解析器是愚蠢的吗?
使用现代模式匹配嵌套的parens非常简单.不计算空白,这种事情:
\( (?: [^()] *+ | (?0) )* \)
适用于主流语言,如Perl和PHP,以及任何使用PCRE的东西.
但是,你真的需要完整解析的语法正则表达式,否则你会疯了.不要使用其正则表达式不支持将正则表达式分解为较小单元的语言,或者不支持正确调试其编译和执行的语言.生活对于低级别的hackery来说太短暂了.如果你打算这样做,也可以回到汇编语言.
我写了很多关于递归模式,语法模式和解析的内容:例如,参见here for parsing approaches和here for lexer approaches;还有,final solution here.
此外,Perl的Regexp::Grammars
module在将语法正则表达式转换为解析结构时特别有用.
所以,无论如何,去吧.你会从中学到很多东西.