java – 在clojure中构建bloom过滤器时使用什么哈希技术?

前端之家收集整理的这篇文章主要介绍了java – 在clojure中构建bloom过滤器时使用什么哈希技术?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我想在Clojure中构建一个bloom过滤器,但是对于基于JVM的语言可能可用的所有哈希库,我并不太了解.

在Clojure中我应该使用最快的(相对于最准确的)bloom地图实现?

解决方法

所以关于bloom过滤器的有趣的事情是,要有效地工作,他们需要多个哈希函数.

Java Struts已经有一个内置的哈希函数,可以使用 – String.hashCode()返回一个32位整数散列.对于大多数目的,这是一个好的哈希码,可能这是足够的:如果您将其分成2个独立的16位哈希码,例如,这可能足以让您的布隆滤镜工作.你可能会碰到一些碰撞,但这很好 – 绽放过滤器预计会有一些碰撞.

如果没有,你可能想要自己滚动,在这种情况下,我建议使用String.getChars()访问原始的char数据,然后使用它来计算多个哈希码.

Clojure代码让你开始(只是总结字符值):

(let [s "Hello"
      n (count s)
      cs (char-array n)]
  (.getChars s 0 n cs 0)
  (areduce cs i v 0 (+ v (int (aget cs i)))))
=> 500

注意使用Clojure的Java互操作调用getChars,并使用areduce给你一个非常快的迭代字符数组.

您可能也对我在Github:https://github.com/MagnusS/Java-BloomFilter上发现的Java bloom过滤器实现感兴趣.哈希码实现一目了然,但它使用一个字节数组,我认为比使用字符的效率要低一些,因为需要处理字符编码开销.

猜你在找的Java相关文章