我有几个非常大的日志文件,我需要解析它们。易于实现显然指向我Perl和正则表达式组合(其中我还是一个新手)。但速度如何?在C中实现它会更快吗?每个日志文件的大小都是2 GB。
@H_403_2@
解决方法
我非常怀疑C将比Perl快,除非你要手动编译RE。
通过手工编译,我的意思是直接编码有限状态机(FSM),而不是使用RE引擎编译它。这种方法意味着您可以针对特定情况进行优化,这通常比依靠更通用的引擎更快。
但是,这并不是我曾经建议过的任何人,没有必要在编译器或解析器之前编写lex,yacc,bison或其他类似的工具。
通用引擎,如PCRE,通常是强大和足够快(对我的需要,无论如何,这些需求往往是非常苛刻的)。
当使用一般的RE引擎时,它需要能够处理各种情况,无论是用C或Perl编写。当你想到哪个更快的时候,你只需要比较RE引擎在两种情况下的写法(提示:Perl RE引擎不是用Perl编写的)。
他们都是用C写的,所以你应该在匹配速度方面找到很少的区别。
您可能会发现在RE周围的支持代码的差异,但这将是最小的,特别是如果它是一个简单的读/匹配/输出循环。
@H_403_2@ @H_403_2@