这是我的代码获取页面:
WebClient webClient = new WebClient(); HtmlPage page = webClient.getPage(url);
问题是webClient总是自动执行javascript,并给我一个错误列表.我只想得到原始来源.如何防止它执行脚本?我发现在版本2.9中有一种方法:
webClient.setJavaScriptEnabled(false);
解决方法
尽管setJavaScriptEnabled(boolean)已被弃用,但已添加到WebClient的WebClientOptions成员.这是
doc.
为了禁用JavaScript,您应该这样做:
webClient.getOptions().setJavaScriptEnabled(false);
另外,如果你想从网页上获取原始的HTML代码,你应该看看这个问题:
How to get the pure HTML of a page with HTMLUnit while ignoring scripts and other contents