ajax动态网页爬取总结

这几天对JS动态网页的爬取做了一下研究，主要涉及到的对象有HtmlUnit、HttpUnit、SeleniumWebDriver、CasperJs和HttpClient模拟等操作。我们可以通过对天猫商品的促销价爬取来对他们进行下对比。

测试网页如下：

http://detail.tmall.com/item.htm?spm=0.0.0.0.HkxFxe&id=520129049356

促销价在天猫的网站上是动态生成的，在源码中是看不到的。

1HtmlUnit

HtmlUnit是一款开源的Java页面分析工具，读取页面后，可以有效的使用HtmlUnit分析页面上的内容。项目可以模拟浏览器运行，被誉为java浏览器的开源实现。它对于动态生成的数据提供了支持，使我们能够得到ajax执行后的源代码。而且它操作简单只需将相关的jar包引入便可使用。

测试代码：

publicclassHtmlUnitTest{

Stringurl="http://detail.tmall.com/item.htm?spm=0.0.0.0.HkxFxe&id=520129049356";

staticWebClientwebClient;

@BeforeClass

staticvoidinit(){

//指定浏览器，并指定浏览器模拟的版本；

webClient=newWebClient(BrowserVersion.CHROME);

//webclient参数载体

WebClientOptionsclientOptions=.getOptions();

ProxyConfigproxyConfigProxyConfig();

.setProxyHost("proxy.asiainfo.com");

.setProxyPort(8080);

//设置webClient的相关参数

.setJavaScriptEnabled(true.setCssEnabled(false.setTimeout(10000);

.setThrowExceptionOnScriptError(.setProxyConfig();

.setAjaxController(NicelyResynchronizingAjaxController());

}

@Test

test(){

longstart=System.currentTimeMillis();

//模拟浏览器打开一个目标网址

HtmlPagerootPagetry{

rootPage.getPage();

HtmlElementhtmlElement=.getBody();

StringxmlContent.asXml();

end();

System.out.println("time:"+(-));

.println(//测试js生成的部分是否加载成功

Documentdoc=Jsoup.parse(Elementsselect.select("#J_PromoPrice.tm-price");

if!=null&&.size()>0){

text.get(0).text();

);

}

}catch(FailingHttpStatusCodeExceptione){

.printStackTrace();

(MalformedURLException(IOException.printStackTrace();

}

执行结果：

通过代码及测试我们会发现，它简单易用，但是在抓取时间上耗时还是很多的。

2HttpUnit

上面谈到HtmlUnit我们还要提一下这个HttpUnit，名字相似、功能相似，如果不注意往往会混淆。网上搜索HttpUnit的官方文档，你会发现它的版本已经有好几年没有更新了，而且对ajax动态数据的解析不支持，无法解决我们现有的问题，放弃。

3SeleniumWebDriver

现在的网络访问不了官方网站，只能从其他地方收集一些资料，它包含了多种Driver，如下图所示：

1）HtmlUnitDriver

从这些子类中我们可以看出Selenium包含了HtmlUnitDriver，通过查看源码以及使用发现它实际上就是调用的HtmlUnit的部分方法，不过与HtmlUnit不同的是它并没有提供Ajax支持，因此对于天猫这类的网页它是解析不了促销价格的。

2）各种浏览器Driver

我们在使用时，不同的浏览器需要配置不同的参数来指定浏览器的安装路径。每次初始化操作都会打开一个浏览器。下面让我们以火狐浏览器为例：

测试代码：

classSelenimuWebDriverTest{

WebDriverwebDriver;

Stringurl=;

@Before

setUp(){

DesiredCapabilitiescapability=DesiredCapabilities.firefox();

capability.setCapability("firefox_binary","E:\\ProgramFiles\\MozillaFirefox\\firefox.exe"webDriver=FirefoxDriver(capability);//初始化一个火狐浏览器

webDriver.manage().window().maximize();//最大化浏览器

}

Test

test1()throwsException{

longstart=System.currentTimeMillis();

webDriver.get(url);

StringpageSource=webDriver.getPageSource();

end=System.currentTimeMillis();

System.out.println(+(end-start));

Documentdoc=Jsoup.parse(pageSource);

Elementsselect=doc.select((select!=&&select.size()>0){

Stringresult=select.get(0).text();

System.out.println(result);

else"noresult"webDriver.close();

}

执行结果：

从网页的抓取时间上来说，它的效率还是可以的，初始化浏览器的过程我们需要注意防止浏览器打开过多，以免耗时且耗资源。并且这个在使用的时候有时候打开浏览器的时候会提示导入向导，这种还需要调整浏览器的配置参数。

3）PhantomJSDriver

PhantomJSDriver的使用非常简单、接近真实浏览器且不需要打开浏览器，因此，直接创建一个PhantomJSDriver对象就可以用了。前提是需要安装phantomjs并且配置好环境变量，不过这一步是非常简单的。

测试代码：

@Before

publicvoidsetUp(){

webDriver=newPhantomJSDriver();

}

//其他同上

结果：

这个用起来还是很方便的，不知道是否是网络的原因，测试过程中抓取时间的变化在2s-7s范围波动，从抓取来看时间也不是最慢的，简单易用。

4CasperJs

由于最先研究的是这个东西，在此还是要先简单说一下吧。

CasperJS[1]是一个开源的导航脚本处理和测试工具，基于PhantomJS（前端自动化测试工具）编写。CasperJS简化了完整的导航场景的过程定义，提供了用于完成常见任务的实用的高级函数、方法和语法。它的写法与JS、Jquery的方法类似，我们可以在他的脚本中使用js或者Jquery的函数。

由于官方文档写的不是很详细，因此对于初学者来说也是有一定难度的。且它的抓取效率也是秒级的。由于它不是Java编写的，因此我们需要通过相关的方法来调用脚本。它是基于PhantomJS的，因此我们也需要安装PhantomJS，配置相关的环境变量。

官方地址http://docs.casperjs.org/en/latest/installation.html

调用CasperJs的脚本，来得到页面源代码，示例代码如下：

useSperjs(){

url"http://detail.tmall.com/item.htm?spm=a220m.1000858.1000725.1.MbFIev&id=45844061725&skuId=93180315832&areaId=110000&cat_id=52810004&rn=21d1496d974e4f9984611fad013f1696&user_id=728628560&is_b=1"currentTimeMillis();

Processexec=Runtime.getRuntime().exec("casperjsD:/jade/casperjs/jadeFile/test.js--url="+InputStreamin.getInputStream();

InputStreamReaderisrInputStreamReader("gbk"BufferedReaderbrBufferedReader(linenull;

StringBuildersbStringBuilder();

while((.readLine())!=){

.append(+"\n\r".toString());

}

"casperjstime:")/1000);

}

示例脚本如下：

//test.js

varcasper=require('casper').create({

verbose:false,

logLevel:'debug',0);font-size:12px">waitTimeout:10000,0);font-size:12px">pageSettings:{

loadImages:false,//TheWebPageinstanceusedbyCasperwill

loadPlugins:false//usethesesettings

});

phantom.outputEncoding="gbk";//解决乱码问题

phantom.cookiesEnabled=true;

varurl=casper.cli.get('url');

casper.start(url,function(){

this.scrollToBottom();

casper.GetDetailUrl(url);

});

casper.GetDetailUrl=function(detailUrl){

　　casper.thenOpen(detailUrl,function(){

　　 console.log(this.getCurrentUrl());

});

};

casper.then(functiongetPic(){

returnthis.echo(this.getHTML());

casper.run();

我们可以通过上述的方式来得到AJax加载后的源代码，然后通过流的方式取得页面的源码，不过这个需要我们掌握CasperJs脚本的编写规则。在性能方面也是秒级的。

5HttpClient模拟请求

这种情况相对于前面所有的方法来说就比较复杂了，因为它需要我们对网页进行分析，由于不同的网站结构不一样，因此采用这种方式需要我们对网页请求进行分析。一般都需要借助一些专业的工具如httpwatch等。

比如我们要提取价格，我们需要找到价格对应的请求链接，然后再去请求数据，这种情况在提取多个属性信息的时候也是不方便的，因为涉及到多次请求，而且一般不具有通用性。好处是httpclient抓取性能较高，抓取效率是毫秒级的。

6总结

从简单的测试结果来看，我认为HtmlUnit、SeleniumWebDriver的PhantomJSDriver都是不错的选择，模拟浏览器简单易用且都能满足我们目前的需求。

以上是我这几天的调查结果，有很多的不足之处，对于本人粗陋的总结，对于后期的工作就当是抛砖引玉吧。

ajax动态网页爬取总结

猜你在找的Ajax相关文章