这个是我现在还没弄明白的东西。。先占个位。。
nutch1.2中自带了carrot2聚合分类插件,但是这方面的中文资料没找到很多,所以有点费解,
看carrot2官方列子感觉很强大,神马分类都能分,但是就是不知道在现在做的项目中如何应用,修改至我想达到的分类效果
估计是缓存机制 nutch1.2在加载超过2页的数据的时候,只会先加载前2页的数据,后面的数据需要请求才能加载,
所以需要分类的结果集只能重新查一遍,把所有的结果集查到,只用于分类
然后遍历结果集,统计。。。。。。
暂时么办法,只好先用死办法做做了,以后再优化了。