我们有一种情况,我们记录访问和访问者的
页面命中和机器人堵塞了我们的
数据库.我们不能使用这样的验证码或其他技术,因为在我们甚至要求人类输入之前,基本上我们正在记录
页面匹配,我们只想记录人类的
页面匹配.
有没有已知的机器人IP的列表在那里?检查已知的漫游器用户代理是否工作?
没有确切的方式来捕捉所有机器人.如果有人想要,机器人可以像真正的浏览器那样行事.
最重要的机器人在代理字符串中清楚地识别自己,所以有一个已知的机器人列表,你可以适应大多数.在列表中,您还可以添加一些HTTP库默认使用的代理字符串,以便从甚至不知道如何更改代理字符串的人捕获机器人.如果您只是记录访问者的代理字符串,您应该可以选择要存储在列表中的代码.
您也可以在您的页面上放置一个隐藏的链接,导致robots.txt文件中过滤出的页面,从而形成“坏的机器人陷阱”.严重的机器人不会跟随链接,人类不能点击它,所以只有机器人不符合规则才能请求文件.