我有一个页面刮板用于从网站的子目录中抓取内容,我的重写规则正在干扰内容抓取.例如,刮刀正在抓取旧版网站的内容:
/catalog/catalog.asp?page=23\u0026amp;section=14
然后使用它来填充新版本:
/PartsBook/Catalog.aspx?page=23\u0026amp;section=14
除了使用此内容预先填充新网站之外,我还会将旧网址重定向到将其标记为新网址的人.问题在于它导致刮刀尝试读取新页面而不是旧页面.有没有办法使用规则条件将规则限制为仅影响非本地请求?
解决方法
也许您可以使用此代码段进行URL重写.您可以通过将{REMOTE_ADDR}与剪贴板IP进行比较来进行过滤.
<rule name="Block SomeRobot" stopProcessing="true"> <match url="^folder1/folder2" /> <conditions logicalGrouping="MatchAny"> <add input="{REMOTE_ADDR}" pattern="XXX\.XXX\.XXX\.[0-5]" /> </conditions> <action type="redirect" url=""/> </rule>