我想抓住具体的东西.特别是像音乐会,电影,艺术画廊开幕等发生的事件等等.任何可能花时间去的事情.
如何实现抓取工具?
我听说过Grub(grub.org – > Wikia)和Heritix(http://crawler.archive.org/)
还有别人吗
每个人都有什么意见?
-Jason
解决方法
该主题的优秀介绍文本是
Introduction to Information Retrieval(全文可在线).它有一个关于
Web crawling的章节,但也许更重要的是,它为您要抓取的文档所做的事情提供了基础.
Introduction to Information Retrieval http://nlp.stanford.edu/IR-book/iir.jpg