我在Ubuntu 10.04上运行Solr 1.4(通过apt-get solr-tomcat安装),它似乎工作正常.我很难找到关于如何索引文档的任何连贯信息.我是SOLR的新手,所以请耐心等待!
我有一个文件夹(/ mnt /文件夹)是一个挂载的Windows共享,其中包含我想索引的Word和PDF文件,是什么让SOLR索引整个文件夹的最简单方法?
我有一个文件夹(/ mnt /文件夹)是一个挂载的Windows共享,其中包含我想索引的Word和PDF文件,是什么让SOLR索引整个文件夹的最简单方法?
SOLR的文档相当差,无法找到任何有关完成任务的体面教程,因此非常感谢任何帮助!
小号
解决方法
看看
Solr wiki,它是一个非常全面的文档.
特别参见ExtractingRequestHandler,它允许您索引Word和PDF文档等二进制文件. Here’s an introduction到主题.
如果wiki对你来说还不够,还有一个great book about Solr.