我遇到以下问题:
WGET-向下钻取离线公共索引-路径交叉绑定到特定域路径的问题
使用的示例将是我正在使用正确的WGET开关以某种方式解决的以下(确切)障碍。
例如:此域:https://www.leagle.com/decisions有一组包含“数据集”的页面链接;而无需浏览整个www.leagle.com(我曾尝试并失败了)。
假设我们要创建以下内容的离线索引:
https://www.leagle.com/decisions/browse/series/U.S.(美国报告-美国SCOTUS判例法)
让我们看一下其中包含一堆“法院意见”的最新“卷”链接;根据以下判例法,所有这些都是公共记录:
“对每个公民都有约束力的法律的真实解释和解释,不论是宣告不成文的法律,还是解释宪法或法规,都可以向所有人免费公开。”(128 US 244 (1888年)。
卷URL为:
https://www.leagle.com/decisions/browse/series/volume/564%20U.S.
点击“美国最高法院的564 U.S. 1-SYKES诉美国”。
将带您获得该卷中的第一份法院意见。这将带我们到以下页面:
https://www.leagle.com/decision/insco20110609000t
该意见页在其他路径中具有以下2个链接:
1)https://www.leagle.com/decision/citedcases/insco20110609000t 2)https://www.leagle.com/decision/citingcases/insco20110609000t
以下是以下WGET模板,我正在许多其他公共记录网站上成功使用该WGET模板进行我的项目。然而;如果不删除域绑定和启动URL并一次访问整个站点,则无法在上述示例中使用(这是我的DSL线路或计算机硬件无法实现的)。
wget \
--recursive \
--no-clobber \
--page-requisites \
--html-extension \
--convert-links \
--no-check-certificate \
--output-file=logfile \
--user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/70.0" \
--domains www.leagle.com \
--no-parent \
https://www.leagle.com/decisions/browse/series/U.S.
在这种情况下我该怎么办?