频道导航

unix – 使用wget从谷歌学者搜索结果下载所有pdf文件

2020-09-08 Bash 前端之家

前端之家收集整理的这篇文章主要介绍了unix – 使用wget从谷歌学者搜索结果下载所有pdf文件，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我想写一个简单的网络蜘蛛或只是使用wget从谷歌学者下载pdf结果.这对于获得研究论文来说实际上是一种非常漂亮的方式.

我已经在stackoverflow上阅读了以下页面：

Crawl website using wget and limit total number of crawled links

How do web spiders differ from Wget’s spider?

Downloading all PDF files from a website

How to download all files (but not HTML) from a website using wget?

最后一页可能是最具启发性的.我确实按照this的建议尝试使用wget.

我的谷歌学者搜索结果页面是thus但没有下载任何内容.

鉴于我对webspiders的理解程度很低,我该怎么做才能实现这一目标？我确实认识到写蜘蛛可能非常复杂,这是我可能不想进行的项目.如果可以使用wget,那将是非常棒的.

wget -e robots=off -H --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" -r -l 1 -nd -A pdf http://scholar.google.com/scholar?q=filetype%3Apdf+liquid+films&btnG=&hl=en&as_sdt=0%2C23

有几点需要注意：

>在搜索查询中使用filetyle：pdf
>一级递归
> -A pdf仅接受pdf
> -H跨越主机
> -e robots = off并使用–user-agent将确保获得最佳结果. Google学术搜索拒绝空白用户代理,而pdf存储库可能会禁用机器人.

当然,限制只会是第一页的结果.你可以扩展递归的深度,但这将是疯狂的并且永远.我建议使用像Beautiful Soup和wget子进程这样的组合,以便您可以战略性地解析和遍历搜索结果.

上一篇：如何将Rubymine IDE调试器附加到sh 下一篇：Vim：仅用于yank命令的默认寄存器

猜你在找的Bash相关文章

Vim常用操作总结

普通模式 >G 增加当前行到文档末尾处的缩紧层级 $ 移动到本行的末尾 . ...

作者：前端之家时间：2020-08-04

SpaceVim 语言模块 elixir

原文连接： https://spacevim.org/cn/layers/lang/elixir/ 模块简介功能特性启用模块快...

作者：前端之家时间：2020-08-04

SpaceVim 语言模块 dart

原文连接： https://spacevim.org/cn/layers/lang/dart/ 模块简介功能特性依赖安装及启用...

作者：前端之家时间：2020-08-04

shell 操作符详解

= 　　赋值操作符，可以用于算术和字符串赋值 + 　　加法计算　　 - ...

作者：前端之家时间：2020-08-04

adb shell 查看内存信息

1.根据包名来查看指定的APP指定数据 adb shell "top | grep com.xxx.xxx" 由于这样...

作者：前端之家时间：2020-08-04

salt-api安装以及简单实使用

1、安装说明　　操作系统版本：CentOS Linux release 7.5.1804 (Core) 　　saltstack版本...

作者：前端之家时间：2020-08-04

lunix 思维导图

作者：前端之家时间：2020-08-04

yum仓库搭建

实验目的：在系统中安装yum仓库，解决用rpm安装软件包时会产生依赖包而导致安装失败的问题...

作者：前端之家时间：2020-07-22

shell 括号的区别

$() 　　用于命令交换　　　　里面会会执行命令，如果你写其他的：　　　　会直接报错...

作者：前端之家时间：2020-07-22

纸小墨ink简洁主题story爱上你的故事

主题介绍为纸小墨写的一款主题,该主题移植自Yumoe Demo ink-theme-story 主题的一些食用说...

作者：前端之家时间：2020-07-22

编程分类

Linux Windows CentOS Ubuntu Nginx WebService Scala Memcache Apache Redis Docker Bash Azure Tomcat LNMP Shell 数据结构服务器运维网络安全

最新文章