我正在使用open-uri和nokogiri和
ruby来做一些简单的webcraw.
有一个问题,有时html在完全加载之前被读取.在这种情况下,我无法获取加载图标和导航栏以外的任何内容.
告诉open-uri或nokogiri等到页面完全加载的最佳方法是什么?
有一个问题,有时html在完全加载之前被读取.在这种情况下,我无法获取加载图标和导航栏以外的任何内容.
告诉open-uri或nokogiri等到页面完全加载的最佳方法是什么?
目前我的脚本看起来像:
require 'nokogiri' require 'open-uri' url = "https://www.the-page-i-wanna-crawl.com" doc = Nokogiri::HTML(open(url,ssl_verify_mode: OpenSSL::SSL::VERIFY_NONE)) puts doc.at_css("h2").text