前端之家收集整理的这篇文章主要介绍了
php – 如何知道被删除的网站是否已更改?,
前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我正在使用
PHP来抓取网站并收集一些数据.这一切都是在不使用正则表达式的情况下完成的.我正在使用
PHP的explode()
方法来查找特定的HTML
标签.
如果网站的结构发生变化(CSS,HTML),则刮刀可能会收集错误的数据.所以问题是 – 我如何知道HTML结构是否已经改变?如何在将任何数据存储到我的数据库之前识别它,以避免存储错误的数据.
如果您正在抓取
内容发生变化的
页面,我认为您没有任何干净的
解决方案.
我已经开发了几个python scraper,我知道当网站对其布局进行微妙的改变时,怎么会令人沮丧.
你可以尝试一个机械化的解决方案(不知道PHP对应物),如果你很幸运,你可以隔离你需要提取的内容(链接?).
另一种可能的方法是编码一些约束并在存储到db之前检查它们.
例如,如果您要抓取Url,则需要验证刮刀所解析的内容是否正式为有效的Url;对于整数ID或您想要刮除的任何内容都可以被识别为有效.
如果您正在抓取纯文本,则检查起来会更加困难.