解决方法
” In 2006,Google has indexed over 25 billion web pages,[32] 400 million queries per day,[32] 1.3 billion images,and over one billion Usenet messages. ” – Wikipedia
并记得引用来自2006年的数字.这是古老的历史.最先进的技术比这更好.
内容新鲜度:
>新内容不断增加(现实)
>现有的网页经常会发生变化 – 您需要重新抓取,原因有两个:a)确定是否死亡,b)确定内容是否已更改.
爬行者的礼貌:
>你不能压倒任何给定的网站.如果您从同一个IP重复点击任何主要站点,您可以触发CAPTCHA提示符,否则将阻止您的IP地址.网站将根据带宽,请求频率,“坏”页面请求数以及各种其他事情进行此操作.
>有一个robots.txt协议,站点暴露给抓取工具,服从它.
>有一个网站地图标准,网站暴露给抓取工具,使用它来帮助您探索 – 您也可以(如果您选择)权重页面在网站上的相对重要性,并使用时间居住在缓存中,如果在网站地图.
减少你需要做的工作:
通常,网站通过多个名称暴露自己 – 您将需要检测到相同的页面 – 这可能发生在相同的url或单独的URL上.考虑页面内容的哈希(减去标题,日期/时间不断变化).跟踪这些页面等价物,并在下次跳过或确定是否有一个众所周知的给定站点之间的映射,以便您不必爬网.
>垃圾邮件在那里的人数众多,只有通过谷歌的网页,但他们“种子”自己的网站,以便自己爬行.
所以 – 你总是在爬行的周期.总是.几乎肯定会有几个(很多)机器.以确保您能遵守礼貌,但仍然在数据的新鲜度.
如果要按快进按钮,只需使用自己独特的算法处理页面即可.如果您需要快速搜索,您可以利用预先构建的抓取工具,如Programmable Web所示.他们使用客户端计算能力.
80条腿正在使用孩子们在网站上玩游戏的机器周期.想想一个网页上的后台进程,确实调用,并且在您使用该页面/网站时不起作用,因为它们正在使用Plura技术堆栈.
“Plura Processing has developed a new and innovative technology for distributed computing. Our patent-pending technology can be embedded in any webpage. Visitors to these webpages become nodes and perform very small computations for the application running on our distributed computing network.” – Plura Demo Page
所以他们通过成千上万个IP上的数千个节点发布“爬行”,并且对网站有礼貌,并且快速爬行.现在我个人不知道我关心使用最终用户浏览器的风格,除非它们在所有使用技术的网站上都被非常清楚地显示出来 – 但是如果没有其他的话,这是一个开箱即用的方法.
还有其他爬虫被编写在社区驱动的项目中,您也可能会使用它们.
正如其他受访者所指出的那样 – 做数学.您每秒需要爬行约2300页,以便每5天抓取1B页.如果你愿意等待更长时间,那么这个数字就会下降.如果你以为你要抓住超过1B的数字就会上升.简单的数学
祝你好运!