STL系列之九探索hash_set

分类：STL 他山之石 2012-03-08 11:52 17879人阅读评论(38) 收藏举报

 
 table 
 class 
 nosql数据库 
 insert 
 数据结构 
 null 

目录(?)[+]

Title: STL系列之九探索hash_set

Author: MoreWindows

Blog: http://blog.csdn.net/MoreWindows

E-mail: morewindows@126.com

KeyWord: C++ STL set hash_set 哈希表链地址法

本文将着重探索hash_set比set快速高效的原因，阅读本文前，推荐先阅读本文的姊妹篇《STL系列之六 set与hash_set》

一．hash_set之基石——哈希表

hash_set的底层数据结构是哈希表，因此要深入了解hash_set，必须先分析哈希表。哈希表是根据关键码值(Key-Value)而直接进行访问的数据结构，它用哈希函数处理数据得到关键码值，关键码值对应表中一个特定位置再由应该位置来访问记录，这样可以在时间复杂性度为O(1)内访问到数据。但是很有可能出现多个数据经哈希函数处理后得到同一个关键码——这就产生了冲突，解决冲突的方法也有很多，各大数据结构教材及考研辅导书上都会介绍大把方法。这里采用最方便最有效的一种——链地址法，当有冲突发生时将具同一关键码的数据组成一个链表。下图展示了链地址法的使用：

二．简化版的hash_table

按照上面的分析和图示，并参考《编程珠玑》第15章中哈希表的实现，不难写出一个简单的哈希表，我们称之为简化版hash_table。该哈希表由一个指针数组组成，数组中每个元素都是链表的表头指针，程序分为hash_table.h，hash_table.cpp和main.cpp。

1.hash_table.h

[cpp]view plaincopy 
    
 #pragmaonce
 #defineNULL0
 //简化版hash_table
 //byMoreWindows(http://blog.csdn.net/MoreWindows)
 structNode
 {
 intval;
 Node*next;
 Node(intn)
this->val=n;
 this->next=NULL;
 }
 };
classhash_table
public:
 hash_table(constintntablesize);
 ~hash_table();
 boolinsert(intn);
voidinsert(int*pFirst,int*pLast);
boolfind(intsize();
intHashFun(intm_nTableSize;
intm_nTableDataCount;
 Node**m_ppTable;
 };

2.hash_table.cpp

copy 
     
    

#include"hash_table.h"

#include<malloc.h>
#include<memory.h>
hash_table::hash_table(intntablesize)
{
m_nTableSize=ntablesize;
m_ppTable=(Node**)malloc(sizeof(Node*)*m_nTableSize);
if(m_ppTable==NULL)
return;
m_nTableDataCount=0;
memset(m_ppTable, }
hash_table::~hash_table()
free(m_ppTable);
m_ppTable=NULL;
m_nTableDataCount=0;
m_nTableSize=0;
intinlinehash_table::HashFun(intn)
return(n^0xdeadbeef)%m_nTableSize;
inthash_table::size()
returnm_nTableDataCount;
boolhash_table::insert(intkey=HashFun(n);
//在该链表中查找该数是否已经存在
for(Node*p=m_ppTable[key];p!=NULL;p=p->next)
if(p->val==n)
returntrue;
//在链表的头部插入
Node*pNode=newNode(n);
if(pNode==NULL)
false;
pNode->next=m_ppTable[key];
m_ppTable[key]=pNode;
m_nTableDataCount++;
boolhash_table::find(for(Node*pNode=m_ppTable[key];pNode!=NULL;pNode=pNode->next)
if(pNode->val==n)
true;
voidhash_table::insert(int*pLast)
for(int*p=pFirst;p!=pLast;p++)
this->insert(*p);
}

在main.cpp中，对set、hash_set、简化版hash_table作一个性能测试，测试环境为Win7+VS2008的Release设置（下同）。

三．强化版hash_table

首先来看看VS2008中hash_set是如何实现动态的增加表的大小，hash_set是在hash_set.h中声明的，在hash_set.h中可以发现hash_set是继承_Hash类的，hash_set本身并没有太多的代码，只是对_Hash作了进一步的封装，这种做法在STL中非常常见，如stack栈和queue单向队列都是以deque双向队列作底层数据结构再加一层封装。

_Hash类的定义和实现都在xhash.h类中，微软对_Hash类的第一句注释如下——

hash table -- list with vector of iterators for quick access。

哈哈，这句话说的非常明白。这说明_Hash实际上就是由vector和list组成哈希表。再阅读下代码可以发现_Hash类增加空间由_Grow()函数完成，当空间不足时就倍增，并且表中原有数据都要重新计算hash值以确定新的位置。

知道了_Hash类是如何运作的，下面就来考虑如何实现强化版的hash_table。当然有二个地方还可以改进：

1．_Hash类使用的list为双向链表，但在在哈希表中使用普通的单链表就可以了。因此使用STL中的vector再加入《STL系列之八 slist单链表》一文中的slist来实现强化版的hash_table。

2．在空间分配上使用了一个近似于倍增的素数表，最开始取第一个素数，当空间不足时就使用下一个素数。经过实际测试这种效果要比倍增法高效一些。

在这二个改进之上的强化版的hash_table代码如下：

copy

四．结语

从简化版到强化版的hash_table，我们不仅知道了hash_set底层数据结构——哈希表的运作机制，还知道了如何实现大小动态变化的哈希表。达到了本文让读者了解hash_set快速高效的原因。当然本文所给hash_table距真正的hash_set还有不小的距离，有兴趣的读者可以进一步改进。

此外，本文所示范的哈希表也与最近流行的Nosql 数据库颇有渊源， Nosql 数据库也是通过Key-Value方式来访问数据的（访问数据的方式上非常类似哈希表），其查找效率与传统的数据库相比也正如本文中hast_set与set的比较。正因为Nosql 数据库在基础数据结构上的天然优势，所以它完全可以支持海量数据的查询修改且对操作性能要求很高场合如微博等。

STL系列之九 探索hash_set

STL系列之九 探索hash_set

一．hash_set之基石——哈希表

二．简化版的hash_table

三．强化版hash_table

四．结语

猜你在找的NoSQL相关文章

STL系列之九探索hash_set

STL系列之九探索hash_set