这是一个两部分问题.
Q1:基于cURL的请求可以100%模仿基于浏览器的请求吗?
Q2:如果是,应该设置所有选项.如果没有浏览器的额外功能,cURL无法模仿?
我有一个网站,我看到在很短的时间内就有数千个来自单个IP的请求.这些请求收集了我的所有数据.查看日志以识别所使用的代理时,它看起来像是来自浏览器的请求.所以很想知道它是机器人而不是用户.
提前致谢
R1:我想,如果你设置了所有正确的标题,那么,是的,基于卷曲的请求可以模仿基于浏览器的标题:毕竟,两者都发送一个HTTP请求,这只是几行文本之后的一个特定约定(即HTTP RFC)
R2:回答这个问题的最好方法是看一下你的浏览器发送的内容;例如,使用Firefox,您可以使用Firebug或LiveHTTPHeaders来获取它.
GET /questions/1926876/can-a-curl-based-http-request-imitate-a-browser-based-request-completely HTTP/1.1 Host: stackoverflow.com User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; fr; rv:1.9.2b4) Gecko/20091124 Firefox/3.6b4 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 Accept-Language: fr,fr-fr;q=0.8,en-us;q=0.5,en;q=0.3 Accept-Encoding: gzip,deflate Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7 Keep-Alive: 115 Connection: keep-alive Referer: https://stackoverflow.com/questions/1926876/can-a-curl-based-http-request-imitate-a-browser-based-request-completely/1926889 Cookie: ....... Cache-Control: max-age=0
(我刚刚删除了一些信息 – 但你得到了这个想法;-))
使用curl,您可以使用curl_setopt
来设置HTTP标头;在这里,您可能必须使用CURLOPT_HTTPHEADER,CURLOPT_COOKIE,CURLOPT_USERAGENT,……的组合.