我已经在stackoverflow上阅读了以下页面:
Crawl website using wget and limit total number of crawled links
How do web spiders differ from Wget’s spider?
Downloading all PDF files from a website
How to download all files (but not HTML) from a website using wget?
最后一页可能是最具启发性的.我确实按照this的建议尝试使用wget.
鉴于我对webspiders的理解程度很低,我该怎么做才能实现这一目标?我确实认识到写蜘蛛可能非常复杂,这是我可能不想进行的项目.如果可以使用wget,那将是非常棒的.