我们一直在使用网站上的信息(网站允许的内容,如果您提及来源和我们做的),我们已经手动复制信息.你可以想象这可能变得很繁琐,所以我一直在尝试通过使用
PHP脚本获取信息来自动化进程.
我想要抓取的网址是:
http://mediaforest.ro/weeklycharts/viewchart.aspx?r=WeeklyChartRadioLocal&y=2010&w=46 08-11-10 14-11-10
如果我在浏览器中输入它,它可以工作,如果我尝试一个file_get_contents()我得到坏请求
我认为他们检查了客户端是否是浏览器,因此我推出了基于CURL的解决方案:
$ch = curl_init(); $header=array( 'User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.12) Gecko/20101026 Firefox/3.6.12','Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language: en-us,en;q=0.5','Accept-Encoding: gzip,deflate','Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7','Keep-Alive: 115','Connection: keep-alive',); curl_setopt($ch,CURLOPT_URL,$url); curl_setopt($ch,CURLOPT_RETURNTRANSFER,true); curl_setopt($ch,CURLOPT_COOKIEFILE,'cookies.txt'); curl_setopt($ch,CURLOPT_COOKIEJAR,CURLOPT_HTTPHEADER,$header); $result=curl_exec($ch); curl_close($ch);
所以我尝试了另一个解决方案:
http://www.PHP.net/manual/en/function.curl-setopt.PHP#78046
不幸的是,这也不行,我没有想法.我失踪了什么
尝试转义您的URL,这对我来说是有效的.
http://mediaforest.ro/weeklycharts/viewchart.aspx?r=WeeklyChartRadioLocal&y=2010&w=46%2008-11-10%2014-11-10