正则抓取百度搜索结果
前端之家收集整理的这篇文章主要介绍了
正则抓取百度搜索结果,
前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
$url
'http://m.baidu.com/s?word='
.
;
$result
=
file_get_contents
(
);
$pattern
'#class="resitem".*?<a.*?href="(.*?)".*?>(.*?)</a>#si'
;
preg_match_all(
,
$matches
);
echo
'<pre>'
;
print_r(
[1]);
[2]);
;
'http://www.baidu.com/s?word='
;
);
'#class="result.*?class="t".*?<a.*?href="(.*?)".*?>(.*?)</a>#si'
;
);
;
[1]);
[2]);
//说明:(分析PC版)
//正则匹配首先要分析HTML结构,锁定循环部分,<tableid="?"class="result...></table>
//然后取得最简锚点,class="result(这里没有后面的",因为存在class="result-op"这种)
//接下来再对循环内部进行取锚点,class="result...<a...href="..."...>...</a>
//而在整个result中可能存在多种<a.*?href="(.*?)".*?>(.*?)</a>这样的格式,
//因此找到依赖class="t",得到class="result...class="t"...<a...href="..."...>...</a>
//正则中间的.*?就是用来
屏蔽无关
内容(...部分),这部分
内容对于我们的结果不会造成影响
//而我们需要的
链接(href="【...】")和
标题(<a..>【...】</a>)则可以使用子模式,
//从而可以在匹配结果中顺序取出,子模式是加括号。
//最后替换...成.*?,需要
获取数据的
加上括号(),则得到正则表达式:
//'#class="result.*?class="t".*?<a.*?href="(.*?)".*[问号]>(.*?)</a>#si'
//注:?>注释时连在一起写会语法
错误,使用时请将[问号]换回来