asp.net – 如何防止未经授权的蜘蛛侠

前端之家收集整理的这篇文章主要介绍了asp.net – 如何防止未经授权的蜘蛛侠前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我想阻止从我们的某个网站自动html抓取,同时不影响合法的蜘蛛网(googlebot等).有没有什么东西可以实现这一目标?我甚至使用了正确的术语吗?

编辑:我主要是想阻止那些恶意这样做的人.即他们不会遵守robots.txt

编辑2:如果通过“使用率”阻止使用…如果检测到自动化并且流量不是来自合法(谷歌,雅虎,MSN等)IP,则验证码继续浏览.

解决方法

即使不是不可能完成,这也很困难.许多“流氓”蜘蛛/爬虫不会通过用户代理字符串识别自己,因此很难识别它们.您可以尝试通过其IP地址阻止它们,但很难跟上为阻止列表添加新的IP地址.如果使用IP地址,也可以阻止合法用户,因为代理使许多不同的客户端显示为单个IP地址.

在这种情况下使用robots.txt的问题是蜘蛛可以选择忽略它.

编辑:速率限制是一种可能性,但它存在一些识别(和跟踪)“好”和“坏”用户代理/ IP的相同问题.在我们编写的系统内部页面查看/会话计数中,我们根据页面查看率消除了会话,但我们也不担心消除“好”蜘蛛,因为我们不希望它们在数据中计算.我们不会阻止任何客户实际查看页面.

猜你在找的asp.Net相关文章