WGET-向下钻取离线公共索引-路径交叉绑定到特定域路径的问题

我遇到以下问题:

WGET-向下钻取离线公共索引-路径交叉绑定到特定域路径的问题

使用的示例将是我正在使用正确的WGET开关以某种方式解决的以下(确切)障碍。

例如:此域:https://www.leagle.com/decisions有一组包含“数据集”的页面链接;而无需浏览整个www.leagle.com(我曾尝试并失败了)。

假设我们要创建以下内容的离线索引:

https://www.leagle.com/decisions/browse/series/U.S.(美国报告-美国SCOTUS判例法)

让我们看一下其中包含一堆“法院意见”的最新“卷”链接;根据以下判例法,所有这些都是公共记录:

“对每个公民都有约束力的法律的真实解释和解释,不论是宣告不成文的法律,还是解释宪法或法规,都可以向所有人免费公开。”(128 US 244 (1888年)。

卷URL为:

https://www.leagle.com/decisions/browse/series/volume/564%20U.S.

点击“美国最高法院的564 U.S. 1-SYKES诉美国”。

将带您获得该卷中的第一份法院意见。这将带我们到以下页面:

https://www.leagle.com/decision/insco20110609000t

该意见页在其他路径中具有以下2个链接:

1)https://www.leagle.com/decision/citedcases/insco20110609000t 2)https://www.leagle.com/decision/citingcases/insco20110609000t

以下是以下WGET模板,我正在许多其他公共记录网站上成功使用该WGET模板进行我的项目。然而;如果不删除域绑定和启动URL并一次访问整个站点,则无法在上述示例中使用(这是我的DSL线路或计算机硬件无法实现的)。

wget \
 --recursive \
 --no-clobber \
 --page-requisites \
 --html-extension \
 --convert-links \
 --no-check-certificate \
 --output-file=logfile \
 --user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/70.0" \
 --domains www.leagle.com \
 --no-parent \
     https://www.leagle.com/decisions/browse/series/U.S.

在这种情况下我该怎么办?

q7967139 回答:WGET-向下钻取离线公共索引-路径交叉绑定到特定域路径的问题

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3108117.html

大家都在问