我想在Clojure中构建一个bloom过滤器,但是对于基于JVM的语言可能可用的所有哈希库,我并不太了解.
在Clojure中我应该使用最快的(相对于最准确的)bloom地图实现?
解决方法
所以关于bloom过滤器的有趣的事情是,要有效地工作,他们需要多个哈希函数.
Java Struts已经有一个内置的哈希函数,可以使用 – String.hashCode()返回一个32位整数散列.对于大多数目的,这是一个好的哈希码,可能这是足够的:如果您将其分成2个独立的16位哈希码,例如,这可能足以让您的布隆滤镜工作.你可能会碰到一些碰撞,但这很好 – 绽放过滤器预计会有一些碰撞.
如果没有,你可能想要自己滚动,在这种情况下,我建议使用String.getChars()访问原始的char数据,然后使用它来计算多个哈希码.
Clojure代码让你开始(只是总结字符值):
(let [s "Hello" n (count s) cs (char-array n)] (.getChars s 0 n cs 0) (areduce cs i v 0 (+ v (int (aget cs i))))) => 500
注意使用Clojure的Java互操作调用getChars,并使用areduce给你一个非常快的迭代字符数组.
您可能也对我在Github:https://github.com/MagnusS/Java-BloomFilter上发现的Java bloom过滤器实现感兴趣.哈希码实现一目了然,但它使用一个字节数组,我认为比使用字符的效率要低一些,因为需要处理字符编码开销.