网页抓取工具 – 如何抓取数十亿页?

前端之家收集整理的这篇文章主要介绍了网页抓取工具 – 如何抓取数十亿页?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
可以在单个服务器上抓取数十亿个页面吗?

解决方法

不是如果你想要的数据是最新的.

即使搜索游戏中的一个小玩家也可以编号爬行数十亿的页面.

” In 2006,Google has indexed over 25 billion web pages,[32] 400 million queries per day,[32] 1.3 billion images,and over one billion Usenet messages. ” – Wikipedia

并记得引用来自2006年的数字.这是古老的历史.最先进的技术比这更好.

内容新鲜度:

>新内容不断增加(现实)
>现有的网页经常会发生变化 – 您需要重新抓取,原因有两个:a)确定是否死亡,b)确定内容是否已更改.

爬行者的礼貌:

>你不能压倒任何给定的网站.如果您从同一个IP重复点击任何主要站点,您可以触发CAPTCHA提示符,否则将阻止您的IP地址.网站将根据带宽,请求频率,“坏”页面请求数以及各种其他事情进行此操作.
>有一个robots.txt协议,站点暴露给抓取工具,服从它.
>有一个网站地图标准,网站暴露给抓取工具,使用它来帮助您探索 – 您也可以(如果您选择)权重页面在网站上的相对重要性,并使用时间居住在缓存中,如果在网站地图.

减少你需要做的工作:

通常,网站通过多个名称暴露自己 – 您将需要检测到相同的页面 – 这可能发生在相同的url或单独的URL上.考虑页面内容的哈希(减去标题,日期/时间不断变化).跟踪这些页面等价物,并在下次跳过或确定是否有一个众所周知的给定站点之间的映射,以便您不必爬网.
>垃圾邮件在那里的人数众多,只有通过谷歌的网页,但他们“种子”自己的网站,以便自己爬行.

所以 – 你总是在爬行的周期.总是.几乎肯定会有几个(很多)机器.以确保您能遵守礼貌,但仍然在数据的新鲜度.

如果要按快进按钮,只需使用自己独特的算法处理页面即可.如果您需要快速搜索,您可以利用预先构建的抓取工具,如Programmable Web所示.他们使用客户端计算能力.

80条腿正在使用孩子们在网站上玩游戏的机器周期.想想一个网页上的后台进程,确实调用,并且在您使用该页面/网站时不起作用,因为它们正在使用Plura技术堆栈.

“Plura Processing has developed a new and innovative technology for distributed computing. Our patent-pending technology can be embedded in any webpage. Visitors to these webpages become nodes and perform very small computations for the application running on our distributed computing network.” – Plura Demo Page

所以他们通过成千上万个IP上的数千个节点发布“爬行”,并且对网站有礼貌,并且快速爬行.现在我个人不知道我关心使用最终用户浏览器的风格,除非它们在所有使用技术的网站上都被非常清楚地显示出来 – 但是如果没有其他的话,这是一个开箱即用的方法.

还有其他爬虫被编写在社区驱动的项目中,您也可能会使用它们.

正如其他受访者所指出的那样 – 做数学.您每秒需要爬行约2300页,以便每5天抓取1B页.如果你愿意等待更长时间,那么这个数字就会下降.如果你以为你要抓住超过1B的数字就会上升.简单的数学

祝你好运!

猜你在找的HTML相关文章