有人知道以编程方式检测停放的网页吗?也就是说,那些您不小心输入的页面(或有时是有意的),它们由域名停放服务托管,只有广告.
我正在建立一个链接网络,并希望确保过期的网站不会被其他人抢走,然后成为停放的网页.
解决方法
这是一个我认为可以捕获相当数量的测试.它充分利用了您实际上并不希望为您的托管域提供真实网站的事实.它寻找子域和路径的通配符.假设我们的系统中有这个URL
http://www.example.com/method-to-detect-parked.
首先,我会检查实际的URL并将其哈希或抓取副本进行比较.
我的第二次检查是
http://random.example.com/random
如果它与原始链接匹配甚至成功,那么您可以很好地指示页面已停放.如果失败,我可以单独检查子域和路径.如果页面随机更改某些元素,您可能需要选择几个要比较的项目.例如,制作页面中包含的链接列表,并比较那些或者标题标签.