前缀树(Trie),也叫单词查找树
典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
它的基本性质如下:
根节点不包含字符,除根节点外每一个节点都只包含一个字符。
从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串。
每个节点的所有子节点包含的字符都不相同。
前缀树常用的有如下4个操作:
1.插入字符串: void insert(string str)
遍历字符串,沿途经过的pass++,如果出现某个字符从未出现时则新建一个。遍历到最后一个字符时,其结点的end++;
2.删除字符串: void delete(string str)
遍历字符串,每个字符串的pass–,如果遍历到最后一个,end也–;如果沿途发现某个结点的pass(自减之前)值为1,则直接删除该结点。
3.在前缀树中查询字符串出现的次数: int search(string str)
遍历字符串,返回最后一个字符对应结点的end值。
4.在前缀树中查询以str字符串为前缀的个数: int SubString(string str)
遍历字符串,返回最后一个字符对应的结点的pass值。
(pass为经过该结点的次数,end为以该结点结尾的次数)
代码
#include <iostream>
using namespace std;
class NODE
{
public:
int end;
int path;
NODE **pNext;
NODE():end(0), path(0){
pNext = new NODE*[26]();}
};
class TireTree
{
public:
TireTree():root(new NODE){
}
void Insert(const char *pStr)
{
if(NULL == pStr)
return;
NODE *pTemp = root;
for(; '\0' != *pStr; pStr++)
{
int Index = (*pStr) - 'a';
//如果不存在当前这条路
if(NULL == pTemp->pNext[Index])
{
pTemp->pNext[Index] = new NODE;
}
pTemp = pTemp->pNext[Index];
//经过的字符串的前缀++
pTemp->path++;
}
//pStr这个字符串++
pTemp->end++;
}
void Delete(const char *pStr)
{
if(NULL == pStr)
return ;
if(0 == Find(pStr))//字符串不存在
{
return ;
}
NODE *pTemp = root;
for(; '\0' != *pStr; pStr++)
{
int Index = (*pStr) - 'a';
//以经过字符串为前缀的已经的个数是0了
if(0 == --pTemp->pNext[Index]->path)
{
NODE *pNext = pTemp->pNext[Index];
pTemp->pNext[Index] = NULL;
pStr++;
//防止内存泄漏
for(; '\0' != *pStr; pStr++)
{
Index = (*pStr) - 'a';
pTemp = pNext;
pNext = pNext->pNext[Index];
delete pTemp;
}
return ;
}
pTemp = pTemp->pNext[Index];
}
pTemp->end--;
}
int SubString(const char *pStr)
{
if(NULL == pStr)
return 0;
NODE *pTemp = root;
for(; '\0' != *pStr; pStr++)
{
int Index = (*pStr) - 'a';
if(NULL == pTemp->pNext[Index])
{
return 0;
}
pTemp = pTemp->pNext[Index];
}
return pTemp->path;
}
int Find(const char *pStr)
{
if(NULL == pStr)
return 0;
NODE *pTemp = root;
for(; '\0' != *pStr; pStr++)
{
int Index = (*pStr) - 'a';
if(NULL == pTemp->pNext[Index])
{
return 0;
}
pTemp = pTemp->pNext[Index];
}
return pTemp->end;
}
struct NODE *root;
};