我在
https://searchlight.cluen.com/E5/CandidateSearch.aspx有一个ASPX页面,上面有一个表格,我想提交并解析信息.
使用Python的urllib和urllib2我使用正确的标头和用户代理创建了一个post请求.但是生成的html响应不包含预期的结果表.我误解了还是错过了任何明显的细节?
import urllib import urllib2 headers = { 'HTTP_USER_AGENT': 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.13) Gecko/2009073022 Firefox/3.0.13','HTTP_ACCEPT': 'text/html,application/xhtml+xml,application/xml; q=0.9,*/*; q=0.8','Content-Type': 'application/x-www-form-urlencoded' } # obtained these values from viewing the source of https://searchlight.cluen.com/E5/CandidateSearch.aspx viewstate = '/wEPDwULLTE3NTc4MzQwNDIPZBYCAg ... uJRWDs/6Ks1FECco=' eventvalidation = '/wEWjQMC8pat6g4C77jgxg0CzoqI8wgC3uWinQQCwr/ ... oPKYVeb74=' url = 'https://searchlight.cluen.com/E5/CandidateSearch.aspx' formData = ( ('__VIEWSTATE',viewstate),('__EVENTVALIDATION',eventvalidation),('__EVENTTARGET',''),('__EVENTARGUMENT',('textcity',('dropdownlistposition',('dropdownlistdepartment',('dropdownlistorderby',('textsearch',) # change user agent from urllib import FancyURLopener class MyOpener(FancyURLopener): version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11' myopener = MyOpener() # encode form data in post-request format encodedFields = urllib.urlencode(formData) f = myopener.open(url,encodedFields) print f.info() try: fout = open('tmp.htm','w') except: print('Could not open output file\n') fout.writelines(f.readlines()) fout.close()
关于这个主题有几个问题是有帮助的(例如how to submit query to .aspx page in python),但是如果可能的话,我会坚持这个并要求额外的帮助.
生成的html页面说我可能需要登录,但aspx页面显示在我的浏览器中而没有任何登录.
以下是info()的结果:
Connection: close
Date: Tue,07 Jun 2011 17:05:26 GMT
Server: Microsoft-IIS/6.0
X-Powered-By: ASP.NET
X-AspNet-Version: 2.0.50727
Cache-Control: private
Content-Type: text/html; charset=utf-8
Content-Length: 1944
解决方法
ASP.Net使用安全功能,防止在
embedding specific information in it.之前篡改ViewState
服务器很可能拒绝您的请求,因为ViewState被视为被篡改.我不能绝对肯定地说这个,但ASP.Net有several security features内置于可能阻止直接发布的框架中.
如果涉及会话,那么您还需要考虑到这一点.要模拟浏览器正在执行的操作,您需要执行以下步骤:
>请求页面.
>将cookie集合保存到变量中.
>将ViewState提取到变量.
>使用适当的表单值发布,同时传递已保存的Cookie和ViewState信息以及请求.
我知道很多工作,但不是太难.同样,这可能不是您问题的唯一来源,但值得一读,以便开始排除故障.