正则表达式入坑笔记

前端之家收集整理的这篇文章主要介绍了正则表达式入坑笔记前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

最近想要写一个爬虫程序,发现现在的话基本是有两种处理爬取数据的处理。

(1)正则表达式

(2)类似jQuery的DOM的操作

因为正则表达式非常的强大,所以一直想要入坑,所以现在就选择第一种方式。


坑点1:

在使用正则表达式中,很多文档都只是在写如何去匹配,但是对于一个新手的话非常的不友好。因为没有说明如何开始,只是给程序,而没有解释,所以非常的坑。这里面我发现要想使用正则匹配的话,都要写定界符/或#来包住你要写的正则表达式,不然是不清楚这是正则表达式来的。还有就是要匹配html标签的话会出现</div>的情况,这里必须要对/转义使用\/的形式,不然会提前结束了正则表达式。然而你后面还有正则,那么就会警告了。

坑点2:

之前的话在使用(.*)匹配内容的时候,总会出现一些多余的字符,而且这是我们不想要的,例如title=‘xxx’,我只想要xxx但是它却给了xxx target=‘_blank’这样的字符串给我。之后发现这里是因为贪婪模式导致的,所以只要xxx就应该使用非贪婪模式,这个模式只要加在(.*$)这里加多一个$符就ok了。


持续更新。。

原文链接:https://www.f2er.com/regex/358219.html

猜你在找的正则表达式相关文章