我正在使用
Ruby,Selenium WebDriver和Nokogiri从网页中检索数据.加载正确的HTML后,我打印某个类的内容.
例如,
require "selenium-webdriver" require "nokogiri" browser = Selenium::WebDriver.for :chrome browser.get "https://jsfiddle.net" doc = Nokogiri::HTML.parse(browser.page_source) doc.css('.aiButton').map(&:text).join(',')
到目前为止,我发现最困难的部分是正确加载正确的HTML.例如,我想要的内容可能被某些javascript隐藏,或者可能位于不同的页面上.
解决方法
您可以使用Selenium与网页进行交互 – 填写表单字段,单击按钮等.您甚至可以执行自己的javascript代码.
编辑:
使用pry停止代码执行,以便您可以手动操作网页.
# Code for starting Selenium session and opening the web page ... # Use pry to stop the code execution. # Resume the program using command 'exit' in the pry context require 'pry'; binding.pry # Code to get results after you manually manipulate the web page ...