网页抓取工具 – 如何让搜索抓取工具正确地使用无限滚动索引页面?

前端之家收集整理的这篇文章主要介绍了网页抓取工具 – 如何让搜索抓取工具正确地使用无限滚动索引页面?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我有一个网站,我实现无限滚动:当一个用户到达一个页面的末尾,一个 AJAX调用,新的内容被附加到页面底部.但是,这意味着第一个“分页符”之后的所有内容都无法通过搜索抓取工具实现.例如,我有一个页面列出所有项目与“图表”标签.实际上有几十个这样的项目,但抓取工具只能看到前10个,因为其他项目是根据内容相对于浏览器窗口的位置加载的.由于抓取工具没有浏览器窗口,所以新的项目根本不加载.

什么是正确的方式,让搜索爬虫使用无限滚动访问网页的全部内容,同时还允许用户享受无限滚动和缺乏分页

解决方法

查看所有页面

制作另一个页面,其上列出所有内容,并通过无限滚动链接页面中包含的正常项目.然后放置无限卷动页面的一个小链接(也许在最底端),称为所有的.换句话说,如果您的页面列出产品,该链接应该说显示所有产品或类似的.如果该页面博客文章,则该链接应该是所有文章.是的,人类可能不喜欢长时间的负载,但对谷歌来说,这并不重要.它会下载它,并按照其中的链接正常.

此外,如果您的分页遍历成千上万的项目,那么您可以按照博客归档的工作原理或产品目录的工作原理,分解“查看所有页面”.关键是你为人类提供了一种替代手段,没有javascript,而那些真正想要查看所有内容的人,同时也为Google甚至其他搜索引擎抓取您的广告资源.

最后,作为次要措施,添加一个/sitemap.xml文件,该文件具有每个文章/产品/库存的索引或任何内容.见http://www.sitemaps.org/

您可以观看名为Pagination and SEO的官方Google网站管理员视频,了解所有概念,分页,规范网址和Google的rel = next和rel = prev属性.

http://www.youtube.com/watch?v=njn8uXTWiGg

猜你在找的HTML相关文章