在网页中一般有三个地方会存在链接:
a标签中:<a href="/eryongyan/article/details/6512731#comments">
img标签中:<img src="http://csdnimg.cn/pubfooter/images/gongshang_logos.gif" alt="Gongshanglogo" title="">
JS中,如:href.location="*********"
暂时不考虑第三种情况,我写了一个正则:<([aA]|img|IMG).*?(href|src|HREF|SRC)=[\"']([^\"'].*?)[\"\'].*?> 绝大多数的情况下应该都能成功提取。取出链接后,最好做一个链接合法性的验证。
大家可以在线测试下。