(正则表达式)注意事项

随便用抓包工具抓了个HTTP请求,然后想要截取 Request和Response的Header部分,也就是不包括Response的响应的HTML正文,即开头到<!DOCTYPE>之间的内容

自然想到了 /(.*)(?=<!DOCTYPE)/ 发现提示匹配到了内容,但是匹配到了什么呢?竟然只匹配到了<!DOCTYPE前面的一个空白符,那么是什么原因呢?说好的.*匹配任意字符呢?跟约好的不一样啊,直接试试.*能否匹配到全文,和预想的一样,果然不行,只匹配到了第一行...那么明显.*似乎是被换行符\n阻断了...

再次自然想到 /(.*\n)*/ 发现成功匹配到全文了,但是问题又来了,这样括号中存在一个顺序问题\n在前就会少匹配一行,博主觉得/(.*|\n)*/会不会更加妥当一点呢?这样只要是碰到任意字符或者换行就继续向后匹配,但是又回到了最初的尴尬,只会匹配一行...博主想了想/(.*|\n)*/ == /(.*)*|(\n)*/ 那么问题似乎显而易见了...

回到整体,刚发现了换行的问题,那么如何继续往下匹配得到我们想要的Header部分呢?

自然想到了 /(.*\n)*(?=<!DOCTYPE)/ 成功匹配到了我们需要的内容...还多了一个空行,那么稍微再改进下

得到了(.*\n)*(?=\n<!DOCTYPE),问题成功解决了...但是人真不能思考,一思考问题又来了,既然点. 不能匹配\n换行符,那么制表符\t呢?还有\r回车符呢?不会都不能匹配吧?那么就麻烦了~

此时自然想到\r \n \t的替代品 \s

自然写成 (.*\s)*(?=\s<!DOCTYPE) 心里想着这样100%不会有任何问题把,但是问题大了,放在sublime和VS中查找了一下,抛异常run out of stack~~查找都能跑异常,栈溢出???有点想不明白,难道是我查多了?那我终止下贪婪模式写成 (.*\s)*?(?=\s<!DOCTYPE)/ 靠,果然行了~~

但是不终止贪婪模式究竟为什么异常了呢?对啊,为什么呢?我再想想~

O 靠,

(正则表达式)注意事项

猜你在找的正则表达式相关文章