正则匹配页面所有A标签

前端之家收集整理的这篇文章主要介绍了正则匹配页面所有A标签前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

工作需要需要爬去百度百科,需要提取页面中所有A标签的网址。方法如下:

匹配页面所有A标签正则: 

 <a.+?href=\"(.+?)\".*>(.+)</a>

换行版本

<a[^>]+?href=\"([^\"]+)\"[^>]*>([^<]+)</a>

增强版本:

可以匹配href后面跟 单引号,双引号或者不跟符号的情况:

<a[^>]+?href=["']?([^"']+)["']?[^>]*>([^<]+)</a>

匹配指定路径版本

<a[^>]+?href=["']/item/?([^"']+)["']?[^>]*>([^<]+)</a>


猜你在找的JavaScript相关文章