我正在编写一个程序来获取带有视频的网页的源代码.然后,它使用正则表达式来隔离该视频的下载链接.然后它使用httpwebrequest和httpwebresponse下载视频.我的问题出现在某些网站有一个页面,您必须单击继续才能进入视频页面.
例如,有一个视频在http://nextgenvidz.com/view/s995xvc9e2fv上播放,名为“The.Matrix.Reloaded.2003.mp4”,所以我告诉我的程序获取网址“http://nextgenvidz.com/view/s995xvc9e2fv”的源代码,但它无法找到视频的下载链接,因为它是在“继续”页面的源代码中搜索文件.如果您访问上面的网站并查看来源,您将看不到该链接.然后,单击“继续”并在视频出现时执行相同操作,您将注意到该文件仅存在于第二个文件中.
如何获取正在播放视频的页面的源代码,而不是我必须单击的页面继续?
我想使用这段代码:
Private Sub Button1_Click(ByVal sender As System.Object,ByVal e As System.EventArgs) Handles Button1.Click Dim Loading As String = "Loading..." TextBox1.Text = Loading Dim request As System.Net.HttpWebRequest = System.Net.HttpWebRequest.Create(TextBox2.Text) Dim response As System.Net.HttpWebResponse = request.GetResponse() Dim sr As System.IO.StreamReader = New System.IO.StreamReader(response.GetResponseStream()) Dim sourcecode As String = sr.ReadToEnd() TextBox1.Text = sourcecode End Sub
也许有办法以编程方式自动选择“继续”按钮?
这家伙回答得很好.
How can I get HTML page source for websites in VB.NET?
这是他的代码:
Dim sourceString As String = New System.Net.WebClient().DownloadString("SomeWebPage")