不幸的是,我有一些不区分大小写的服务器,短期内无法更换.某些目录需要从抓取中排除,因此我必须在robots.txt中禁止它们.我们以/ Img /为例.如果我把它全部保持小写……
User-agent: * Disallow: /img/
…它没有映射到实际的物理路径,并且/ Img /或/ IMG /的地址未应用于Disallow指令. Crawlers会将这些变体视为不同的路径.
在这件事上看Microsoft’s robots.txt很有趣.他们可能使用IIS服务器,而SERP只是充满了不允许的地址 – 仅限于其他情况.
我该怎么办?是否有效(并且有效)陈述以下内容?
User-agent: * Disallow: /Img/ Disallow: /img/ Disallow: /IMG/