在用curl抓取网页内容的时候,经常要知道,网页返回的请求头信息,和请求的相关信息,特别是在请求过程中存在重定向的时候获取请求返回头信息对分析请求内容很有帮助
下面就是一个请求中存在重定向的例子,我们的目的是要获取最终实际请求的URL地址
$ch=curl_init();
curl_setopt($ch,CURLOPT_URL,$url);
//curl_setopt($ch,CURLOPT_POST,1);
//curl_setopt($ch,CURLOPT_POSTFIELDS,$params);
curl_setopt($ch,CURLOPT_HEADER,1);//返回response头部信息
curl_setopt($ch,CURLOPT_NOBODY,1);//不返回response body内容
//curl_setopt($ch,CURLOPT_MAXREDIRS,1);//设置请求最多重定向的次数
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);//不直接输出response
curl_setopt($ch,CURLOPT_FOLLOWLOCATION,1);//如果返回的response 头部中存在Location值,就会递归请求
$content=curl_exec($ch);
$rinfo=curl_getinfo($ch);
echo $content,"";
echo "
";
print_r($rinfo);
下面是输出的结果
可以看到,经过递归请求后最终得到一个200的response,但是这中方式不能得到最后一次请求的url,也就是最终实际请求的url,要想得到这个url就需要递归的分析每次请求返回的response
echo "--->",$realUrl;
function getRedirectLocation($url){
$realUrl=$url;
echo $url,"";
$ch=curl_init();
curl_setopt($ch,$url);
curl_setopt($ch,1);curl_setopt($ch,CURLOPT_TIMEOUT,3);//设置curl执行时间不超过3秒
//curl_setopt($ch,1);//这行不能要,如果添上,那么在遇到302重定向的时候就会得不到真正的请求url
curl_setopt($ch,1);
$content=curl_exec($ch);
//echo $content;
$rinfo=curl_getinfo($ch);
$matches=array();
if(preg_match('/Location:\s+?(.+?)\s+?/',$content,$matches)){
//echo $matches[1],"";
unset($content);
$realUrl=getRedirectLocation($matches[1]);
}
if(isset($content)){
unset($content);
}
return $realUrl;
}