【学习札记】Bloom Filter（布隆过滤器）

【学习笔记】Bloom Filter（布隆过滤器）

布隆过滤器（Bloom Filter）是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。Bloom filter的原理可以参考：*【1】、论文【2】、网络文章【3】，还有文章【4】中有简单的程序实现。

我的总结：

1、Bloom Filter的原理非常简单，可以说是对Bit-map的扩展，Bit-map是用一个hash函数将数据映射到位数组的某一位，而Bloom Filter是用k个hash函数将数据映射到位数组的k位，检测时只有当k位都置为1才认为该数据存在；

2、Bloom Filter相对于Bit-map的优势。Bit-map实际上就是一个hash表，hash表的最常见的问题是地址冲突，文章【4】中提到“若要降低冲突发生的概率到1%，就要将BitSet的长度设置为URL个数的100倍。”，而Bloom Filter因为使用了多个hash函数，所以冲突的概率是非常低的，论文【2】中对Bloom Filter的错误概率进行了分析。总的来说，Bloom Filter出错概率要低，而且空间效率要高；

3、若位数组大小为m、加入的数据为n、哈希函数个数为k，文献【2】中证明了对于给定的m、n，当 k = ln(2)* m/n 时出错的概率是最小的；

4、Bloom Filter的特点：①不保存原始数据；②不能对插入的数据进行计数；③插入的数据是不能删除的，因为删除（即清除对应的k个bit位）会影响别的数据映射的bit位。相比之下，Bit-map是可以删除数据的（因为数据到bit位是一一对应的）；

5、应用场合，由Bloom Filter的特点（不保存原始数据、无法计数、无法删除等）可知，非常适合于记录和查询某些数据是否“出现”过，例如网络爬虫为了避免重复爬取网页需要记录访问过的URL（文献【4】中列出并比较了该应用例子的不同方法），就可以将URL映射到Bloom Filter的位数组中。当然，适用Bloom Filter有一个前提——允许有一定的错误率！

参考文献：

【1】http://en.wikipedia.org/wiki/Bloom_filter
【2】http://pages.cs.wisc.edu/~cao/papers/summary-cache/node8.html
【3】http://blog.csdn.net/jiaomeng/article/details/1495500
【4】http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html

【学习札记】Bloom Filter（布隆过滤器）

相关推荐