使用WebRequest或WebClient对象查看初始页面可以正常工作,但如果页面大量使用JavaScript来更改页面加载时的DOM,则这些页面不会提供准确的页面图片。
我已经尝试使用Selenium和Watin UI测试框架,他们工作完美,提供生成的源,它出现在所有JavaScript操作完成后。不幸的是,他们通过打开一个实际的Web浏览器,这是非常缓慢。我实现了一个硒服务器,将这项工作卸载到另一台机器,但仍然有相当大的延迟。
有一个.Net库,将加载和解析一个页面(如浏览器)和吐出生成的代码?显然,谷歌和雅虎没有打开浏览器的每一个页面,他们想要蜘蛛(当然,他们可能有比我更多的资源…)。
有没有这样的图书馆或者我是运气,除非我愿意剖析开源浏览器的源代码?
解
好了,谢谢大家的帮助。我有一个工作的解决方案,比Selenium快大约10X。哇!
感谢这个old article from beansoftware我能够使用System.Windows.Forms.WebBrowser控件下载页面并解析它,然后给em生成的源。即使控件是在Windows.Forms,你仍然可以运行它从Asp.Net(这是我正在做的),只记得添加System.Window.Forms到你的项目引用。
关于代码有两个值得注意的地方。首先,在新线程中调用WebBrowser控件。这是因为它必须在single threaded apartment上运行。
其次,GeneratedSource变量设置在两个地方。这不是由于一个智能的设计决定:)我仍然工作,并将在我完成时更新这个答案。 wb_DocumentCompleted()被多次调用。首先下载初始HTML,然后第一轮JavaScript完成时再次。不幸的是,我刮的网站有3个不同的装载阶段。 1)加载初始HTML 2)进行第一轮JavaScript DOM操作3)暂停半秒,然后进行第二轮JS DOM操作。
由于某些原因,第二轮不是由wb_DocumentCompleted()函数引起的,但是它总是在wb.ReadyState == Complete时被捕获。那么为什么不从wb_DocumentCompleted()中删除它?我仍然不知道为什么它没有抓到那里,这是beadsoftware文章推荐把它。我要继续研究它。我只是想发布这个代码,所以有兴趣的人可以使用它。请享用!
using System.Threading; using System.Windows.Forms; public class WebProcessor { private string GeneratedSource{ get; set; } private string URL { get; set; } public string GetGeneratedHTML(string url) { URL = url; Thread t = new Thread(new ThreadStart(WebBrowserThread)); t.SetApartmentState(ApartmentState.STA); t.Start(); t.Join(); return GeneratedSource; } private void WebBrowserThread() { WebBrowser wb = new WebBrowser(); wb.Navigate(URL); wb.DocumentCompleted += new WebBrowserDocumentCompletedEventHandler( wb_DocumentCompleted); while (wb.ReadyState != WebBrowserReadyState.Complete) Application.DoEvents(); //Added this line,because the final HTML takes a while to show up GeneratedSource= wb.Document.Body.InnerHtml; wb.Dispose(); } private void wb_DocumentCompleted(object sender,WebBrowserDocumentCompletedEventArgs e) { WebBrowser wb = (WebBrowser)sender; GeneratedSource= wb.Document.Body.InnerHtml; } }