最近想要写一个爬虫程序,发现现在的话基本是有两种处理爬取数据的处理。
(1)正则表达式
(2)类似jQuery的DOM的操作
因为正则表达式非常的强大,所以一直想要入坑,所以现在就选择第一种方式。
坑点1:
在使用正则表达式中,很多文档都只是在写如何去匹配,但是对于一个新手的话非常的不友好。因为没有说明如何开始,只是给程序,而没有解释,所以非常的坑。这里面我发现要想使用正则匹配的话,都要写定界符/或#来包住你要写的正则表达式,不然是不清楚这是正则表达式来的。还有就是要匹配html标签的话会出现</div>的情况,这里必须要对/转义使用\/的形式,不然会提前结束了正则表达式。然而你后面还有正则,那么就会警告了。
坑点2:
之前的话在使用(.*)匹配内容的时候,总会出现一些多余的字符,而且这是我们不想要的,例如title=‘xxx’,我只想要xxx但是它却给了xxx target=‘_blank’这样的字符串给我。之后发现这里是因为贪婪模式导致的,所以只要xxx就应该使用非贪婪模式,这个模式只要加在(.*$)这里加多一个$符就ok了。
持续更新。。
原文链接:https://www.f2er.com/regex/358219.html