Apriori中的hash tree

总算把hash tree算法弄懂了,不敢独乐,特来分享

hash tree(哈希树),是由tree和hash table结合,旨在优化hash table冲突解决方案的一种数据结构。

在链式hash table中,若关键字发生冲突,则创建单个新节点链到冲突节点之后,并把关键字插入到新节点。

而在hash tree结构中,若关键字发生冲突,则创建一组新节点链到冲突节点之后,并把关键字hash后插入到某个新节点中。

在Apriori算法中,hash tree有以结构:

struct node {
	struct node * branch[m];//指向下一层子节点的m个指针
	int level;//该节点所处层次
	int leaf_node;//叶节点标志
	Item setType * candidate_Itemsets;//指向候选项集
}
每个非叶节点中含有指向下一层子节点的m指针,而叶节点里存有指向候选项集的指针

项集插入hash tree的过程如下:


1:用k表示插入进行到第几层,初始值为1.

2:对输入项集的第k项进行hash,得到n

扫描二维码关注公众号,回复: 3794479 查看本文章

3:判断当前层的根节点的第n个子节点是否为叶节点,若非则跳到1继续

4:将项集插入到该叶子节点是否

5:判断该叶子节点是否已满,若是则进行分裂,否则插入结束,分裂过程是

将该节点原有的项集和新项集按第level项进行hash,然后分别插入到下一层

的新叶节点中,而原叶节点变为非叶节点

例如

哈希函数如下图所示,1,4,7映射到左子树,2,5,8映射到中子树,3,6,9映射到右子树


且每个叶子节点最多含有三个项集

现有以下项集待插入:{1 4 5}, {1 2 4}, {4 5 7}, {1 2 5}, {4 5 8}

插入第一个项集时,用项集的第1项做hash,映射到根节点的左子树,于是得到:



插入第二项集时,仍然用第1项做hash,映射到同一个叶节点:



第三项插入时同理



插入第四项时,仍然映射到同一个叶节点,但由于叶节点最大项数为3,所以需要进行分裂操作,把原来的3项集和新的项集以第2项做hash,映射到新的叶节点:




另外码农小店请支持哦~http://deepdiscuz.taobao.com/

猜你喜欢

转载自blog.csdn.net/owengbs/article/details/7626009
今日推荐