solr做web爬网吗?

前端之家收集整理的这篇文章主要介绍了solr做web爬网吗?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我有兴趣做网页抓取.我正在看solr.

网路抓取是否可以进行网路爬网,或是执行网路抓取的步骤?

解决方法

Solr 5 DOES其实现在做web爬网!
http://lucene.apache.org/solr/

较旧的Solr版本不会单独进行网络爬网,因为历史上它是一个提供全文搜索功能搜索服务器.它建立在Lucene之上.

如果您需要使用另一个Solr项目来抓取网页,那么您可以选择多种选项,包括

> Nutch – http://lucene.apache.org/nutch/
> Websphinx – http://www.cs.cmu.edu/~rcm/websphinx/
> JSpider – http://j-spider.sourceforge.net/
> Heritrix – http://crawler.archive.org/

如果要使用Lucene或SOLR提供的搜索功能,您需要从Web爬网结果中构建索引.

也见:

Lucene crawler (it needs to build lucene index)

猜你在找的HTML相关文章