屏幕从一个网页上抓取很多Javascript

前端之家收集整理的这篇文章主要介绍了屏幕从一个网页上抓取很多Javascript前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我被要求编写一个应用程序,该屏幕从Intranet网页上刮取信息,并以一种很好的简单查看格式呈现某些信息。该网页是一个真正的混乱,要求用户点击六打图标,以发现订购的项目是否到达或已经被接收。你可以想象,用户发现这个令人烦躁的说,至少有一个应用程序,任何人都可以使用它列出他们的订单状态在一个屏幕是很高兴的。

是的,我知道一个更好的解决方案是重新编写网络应用程序,但这将涉及到在供应商的呼叫,并将花费我们的小财富。

无论如何,在寻找这个我发现我想要刮擦的网页大多是Javascript(虽然它不使用任何AJAX技术)。有没有人知道一个图书馆或程序是否存在,我可以用Javascript提供,然后会吐出我的应用程序的DOM解析?

我几乎可以用任何语言编写应用程序,但是我喜欢JavaFX,所以我可以玩它。

谢谢你的时间。

伊恩

解决方法

您可以考虑使用 HTMLunit 它是一个用于自动浏览而不必控制浏览器的java类库,它集成了Mozilla Rhino Javascript引擎,以在其加载的页面上处理JavaScript。还有一个名为Celerity的JRuby包装器。它的javascript支持现在还不是很完美,但是如果你的页面不使用很多黑客,应该能够正常工作,性能应该比控制浏览器更好。此外,您不必担心在您的抓取结束之后,所有其他令人讨厌的事情与控制浏览器(历史记录,自动完成,临时文件等)持续存在。

猜你在找的HTML相关文章