数据结构学习笔记——树

1.定义
树(Tree)是n(n>=0)个结点的有限集。n=0时称为空树。在任意一棵非空树中:(1)有且仅有一个特定的称为根(Root)的结点;(2)当n>1时,其余结点可分为m(m>0)个互不相交的有限集T1、T2、……、Tm,其中每一个集合本身又是一棵树,并且称为根的子树(SubTree)。
树的定义其实就是我们在讲解栈时提到的递归的方法。也就是在树的定义之中还用到了树的概念,这是一种比较新的定义方法。
强调:
1.n>0时根节点是唯一的,不可能存在多个根节点,别和现实中的大树混在一起,现实中的树又很多树须,那是真实的树,数据结构中的树是只能有一个根节点。
2.m>0时子树的个数没有限制,但它们一定是互不相交的。
结点分类
树的结点包含一个数据元素及若干指向其子树的分支。
:结点拥有的子树数称为结点的度(Degree)。
叶结点(Leaf)、终端结点:度为0的结点称为叶结点(Leaf)或终端结点。
非终端结点、分支结点:度不为0的结点称为非终端结点或分支结点。
树的度是树内各结点度的最大值
结点间关系
结点的子树的根称为该结点的孩子(Child),相应地,该结点称为孩子的双亲(Parent)。
同一个双亲的孩子之间互称兄弟(Sibling)。
结点的祖先是从根到该结点所经分支上的所有结点。
反之,以某结点为根的子树中的任一结点都称为该结点的子孙。
树的其他相关概念
结点的层次(Level)从根开始定义起,根为第一层,根的孩子为第二层。
其双亲在同一层的结点互为堂兄弟
树中结点的最大层次称为树的深度(Depth)或高度
如果将树中结点的各子树看成从左至右是有次序的,不能互换的,则称该树为有序树,否则称为无序树
森林(Forest)是m(m>=0)棵互不相交的树的集合。
2.树的抽象数据类型
1.InitTree(*T):构造空树T。
2.DestroyTree(*T):销毁树T。
3.CreatTree(*T, definition):按definition中给出树的定义来构造树。
4.ClearTree(*T):若树T存在,则将树T清空为空树。
5.TreeEmpty(T):若T为空树,返回true,否则返回false。
6.TreeDepth(T):返回T的深度。
7.Root(T):返回T的根节点。
8.Value(T, cur_e):cur_e是树T中的一个结点,返回此结点的值。
9.Assign(T, cur_e, value):给树T的结点cur_e赋值为value。
10.Parent(T, cur_e):若cur_e是树T的非根结点,则返回它的双亲,否则返回空。
11.LeftChild(T, cur_e):若cur_e是树T的非叶结点,则返回它的最左孩子,否则返回空。
12.RightSibling(T, cur_e):若cur_e有右兄弟,则返回它的右兄弟,否则返回空。
13.InsertChild(*T, *p, i, c):其中p指向树T的某个结点,i为所指结点p的度加上1,非空树c与T不相交,操作结果为插入c为树T中p指结点的第i棵子树。
14.DeleteChild(*T, *p, i):其中p指向树T的某个结点,i为所指结点p的度,操作结果为删除T中p所指结点的第i棵子树。
3.树的存储结构
说到存储结构,就会想到我们前面章节讲过的顺序存储和链式存储两种结构。
先来看看顺序存储结构,用一段地址连续的存储单元依次存储线性表的数据元素。这对于线性表来说是很自然的,对于树这样一对多的结构呢?
树中某个结点的孩子可以有多个,这就意味着,无论按何种顺序将树中所有结点存储到数组中,结点的存储位置都无法直接反应逻辑关系,不过充分利用顺序和链式存储结构的特点,完全可以实现对树的存储结构的表示。这里我们主要介绍三种不同的表示法:双亲表示法、孩子表示法、孩子兄弟表示法。
(1)双亲表示法
我们假设以一组连续空间存储树的结点,同时在每个结点中,附设一个指示器指示其双亲结点在数组中的位置。也就是说,每个结点除了直到自己是谁以外,还知道它的双亲在哪里。
下面是双亲表示法的实现代码

//树的双亲表示法结点结构定义
#define MAX_TREE_SIZE 100
typedef int TElemType;    //树结点的数据类型,目前暂定为整形
typedef struct PTNode{    //结点结构
    TElemType data;       //结点数据
    int parent;           //双亲位置
}PTNode;
typedef struct{
    PTNode nodes[MAX_TREE_SIZE];    //结点数组
    int r, n;                       //根的位置和结点数
}PTree;

由于根节点是没有双亲的,所以我们约定根结点的位置域设置为-1,这也就意味着,我们所有的结点都存有它双亲的位置。

改进
如果我们想很方便的找到结点的孩子,我们可以增加一个结点最左边孩子的域,不妨叫它长子域,这样就可以很容易得到结点的孩子。如果没有孩子的结点,这个长子域就设置为-1。
如果我们很关注各兄弟之间的关系,我们可以增加一个右兄弟域来体现兄弟关系,也就是说每一个结点如果它存在右兄弟,则记录右兄弟的下标。同样的,如果右兄弟不存在,则赋值为-1.
存储结构的设计是一个非常灵活的过程。一个存储结构设计得是否合理,取决于基于该存储结构得运算是否适合、是否方便,时间复杂度好不好等。
(2)孩子表示法
换一种完全不同的考虑方法。由于树中每个结点可能有多棵子树,可以考虑用多重链表,即每个结点有多个指针域,其中每个指针指向一棵子树的根节点,我们把这种方法叫做多重链表表示法。
方案一
一种是指针域的个数就等于树的度。
这种方法对于树中各结点的度相差很大时,显然是很浪费空间的,因为有很多的结点,它的指针域都是空的。
既然很多指针域都可能为空,为什么不按需分配空间呢。于是我们有了第二种方案。
方案二
第二种方案每个结点指针域的个数等于该结点的度,我们专门取一个位置来存储结点指针域的个数。
这种方法克服了浪费空间的缺点,对空间的利用率是很高了,但是由于各个结点的链表是不相同的结构,加上维护结点的度的数值,在运算上就会带来时间上的损耗。

能否有更好的方法,既可以减少空指针的浪费又能使结点结构相同。

仔细观察,我们为了要遍历整棵树,把每个结点放到一个顺序存储结构的数组中是合理的,但每个结点的孩子有多少是不确定的,所以我们再对每个结点的孩子建立一个单链表体现它们的关系。
这就是我们要讲的孩子表示法。具体办法是,把每个结点的孩子结点排列起来,以单链表作为存储结构,则n个结点有n个孩子链表,如果是叶子结点则此单链表为空。然后n个头指针又组成一个线性表,采用顺序存储结构,存放进一个一维数组中。
下面是孩子表示法的实现代码

//树的孩子表示法结构定义
typedef struct CTNode{    //孩子结点
    int child;            //孩子结点的下标
    struct CTNode *next;  //指向下一结点的指针
}*childPtr;
typedef struct{           //表头结构
    TElemType data;       //存放在树中的结点数据
    childPtr firstchild;  //指向第一个孩子的指针
}CTBox;
typedef struct{                       //树结构
    CTBox nodes[MAX_TREE_SIZE];       //结点数组
    int r, n;                         //根的位置和结点数
}CTree;

这样的结构对于我们要查找某个结点的某个孩子,或者找某个结点的兄弟,只需要查找这个结点的孩子单链表即可。对于遍历整棵树也是很方便的,对头结点的数组循环即可。
但是,这也存在着问题,我如何直到某个结点的双亲是谁呢?比较麻烦,需要整棵树遍历才行,难道就不可以把双亲表示法和孩子表示法综合一下吗?当然是可以。
我们把这种方法称为双亲孩子表示法,应该算是孩子表示法的改进。
(3)孩子兄弟表示法
刚才我们分别从双亲的角度和从孩子的角度研究树的存储结构,如果我们从树结点的兄弟的角度又会如何呢?当然,对于树这样的层级结构来说,只研究结点的兄弟是不行的,我们观察后发现,任意一棵树,它的结点的第一个孩子如果存在就是唯一的,它的右兄弟如果存在也是唯一的。因此,我们设置两个指针,分别指向该结点的第一个孩子和此结点的右兄弟。
下面是孩子兄弟表示法的实现代码

//树的孩子兄弟表示法结构定义
typedef struct CSNode{
    TElemType data;
    struct CSNode *firstchild, *rightsib;
}CSNode, *CSTree;

其实这个表示法的最大好处就是它把一棵复杂的树变成了一棵二叉树,这样就可以充分利用二叉树的特性和算法来处理这棵树了。
4.二叉树
1.定义
二叉树(Binary Tree)是n(n>=0)个结点的有限集合,该集合或者为空集(称为空二叉树),或者由一个根结点和两棵互不相交的、分别称为根节点的左子树和右子树的二叉树组成。
2.特点
①每个结点最多有两棵子树,所以二叉树中不存在度大于2的结点。注意不是只有两棵子树,而是最多有。没有子树或者有一棵子树都是可以的。
②左子树和右子树是有顺序的,次序不能任意颠倒。就像人是双手、双脚,但显然左手、左脚和右手、右脚是不一样的,右手戴左手套、右脚穿左鞋都会及其别扭和难受。
③即使树中某结点只有一棵子树,也要区分是左子树还是右子树。
3.基本形态
①空二叉树
②只有一个根节点
③根节点只有左子树
④根节点只有右子树
⑤根节点既有左子树又有右子树
4.特殊二叉树
(1)斜树
所有的结点都只有左子树的二叉树叫左斜树。所有结点都是只有右子树的二叉树叫右斜树。这两者统称为斜树。
(2)满二叉树
在一棵二叉树中,如果所有分支结点都存在左子树和右子树,并且所有叶子都在同一层上,这样的二叉树称为满二叉树。
(3)完全二叉树
对一棵具有n个结点的二叉树按层序编号,如果编号为i(1<=i<=n)的结点与同样深度的满二叉树中编号为i的结点在二叉树中位置完全相同,则这棵二叉树称为完全二叉树。
特点
①叶子结点只能出现在最下两层
②最下层的叶子一定集中在左部连续位置
③倒数二层,若有叶子结点,一定都在右部连续位置
④如果结点度为1,则该结点只有左孩子,即不存在只有右子树的情况
⑤同样结点数的二叉树,完全二叉树的深度最小
5.二叉树的性质
性质1:在二叉树的第i层上至多有2^(i-1)个结点(i>=1)。
性质2:深度为k的二叉树至多有2^k-1个结点(k>=1)。
性质3:对任何一棵二叉树T,如果其终端结点数为n0,度为2的结点数为n2,则n0=n2+1。
推导:
由于根节点没有分支线进入,而除了根节点之外的结点都有分支线入,每个结点对应一条分支线,因此总的分支线数位结点数减1,而度为0的结点的分支线数为0,度为1的结点的分支线数为1,度为2的结点的分支线数为2,因此得出n-1=n1+n2*2
而总的结点数目n=n0+n1+n2
得出n0=n2+1
性质4:具有n个结点的完全二叉树的深度为[log2n]+1([x]表示不大于x的最大整数)。
性质5
如果对一棵有n个结点的完全二叉树(其深度为[log2n]+1)的结点按层序编号(从第1层到第[log2n]+1层,每层从左到右),对任一结点i(i<=i<=n)有:
1.如果i=1,则结点i是二叉树的根,无双亲;如果i>1,则其双亲是结点[i/2]。
2.如果2i>n,则结点i无左孩子(结点i为叶子结点);否则其左孩子是结点2i。
3.如果2i+1>n,则结点i无右孩子;否则其右孩子是结点2i+1。
6.二叉树的存储结构
(1)二叉树顺序存储结构
二叉树的顺序存储结构就是用一位数组存储二叉树中的结点,并且结点的存储位置,也就是数组的下标要能体现结点之间的逻辑关系,比如双亲与孩子的关系,左右兄弟的关系等。
考虑一种极端的情况,一棵深度为k的右斜树,它只有k个结点,却需要分配2^(k-1)个存储单元空间,这显然是对存储空间的浪费,所以,顺序存储结构一般只用于完全二叉树。
(2)二叉链表
二叉树每个结点最多有两个孩子,所以为它设计一个数据域和两个指针域是比较自然的想法,我们称这样的链表叫做二叉链表。
下面是二叉链表的实现代码

//二叉树的二叉链表的结点结构定义
typedef struct BiTNode{                  //结点结构
    TElemType data;                      //结点数据
    struct BiTNode *lchild, *rchild;     //左右孩子指针
}BiTNode, *BiTree;

就如同树的存储结构中讨论的一样,如果有需要,还可以再增加一个指向其双亲的指针域,那样就称之为三叉链表。
7.遍历二叉树
1.二叉树遍历原理
二叉树的遍历(Traversing binary tree)是指从根结点出发,按照某种次序依次访问二叉树中所有结点,使得每个结点被访问一次且仅被访问一次。
2.二叉树遍历方法
①前序遍历
规则是若二叉树为空,则空操作返回,否则先访问根结点,然后前序遍历左子树,再前序遍历右子树。

//二叉树的前序遍历递归算法
void PreOrderTraverse(BiTree T){
    if(T == NULL)
        return;
    printf("%c", T->data);        //显示结点数据,可以更改为其他对结点操作
    PreOrderTraverse(T->lchild);  //再先序遍历左子树
    PreOrderTraverse(T->rchild);  //最后先序遍历右子树
}

②中序遍历
规则是若树为空,则空操作返回,否则从根结点开始(注意并不是先访问根结点),中序遍历根结点的左子树,然后是访问根结点,最后中序遍历右子树。

//二叉树的中序遍历递归算法
void InOrderTraverse(BiTree T){
    if(T == NULL)
        return;
    InOrderTraverse(T->lchild);   //中序遍历左子树
    printf("%c", T->data);        //显示结点数据,可以更改为其他对结点操作
    InOrderTraverse(T->rchild);   //最后中序遍历右子树
}

③后序遍历
规则是若树为空,则空操作返回,否则从左到右先叶子后结点的方式遍历访问左右子树,最后是访问根结点。

//二叉树的后序遍历算法
void PostOrderTraverse(BiTree T){
    if(T == NULL)
        return;
    PostOrderTraverse(T->lchild);  //先后续遍历左子树
    PostOrderTraverse(T->rchild);  //再后序遍历右子树
    printf("%c", T->data);         //显示结点数据,可以更改为其他对结点操作
}

④层序遍历
规则是若树为空,则空操作返回,否则从树的第一层,也就是根结点开始访问,从上而下逐层遍历,再同一层中,按从左到右的顺序对结点逐个访问。
8.二叉树的建立
其实建立二叉树,也是利用了递归的原理。只不过在原来应该是打印结点的地方改成了生成结点、给结点赋值的操作而已。

//按前序输入二叉树中结点的值(一个字符)
//#表示空树,构造构造二叉链表表示二叉树T
void CreatBiTree(BiTree *T){
    TElemType ch;
    scanf("%c", &ch);
    if(ch == '#')
        *T = NULL;
    else{
        *T = (BiTree)malloc(sizeof(BiTree));
        if(!*T)
            exit(OVERFLOW);
        (*T)->data = ch;               //生成根节点
        CreatBiTree(&(*T)->lchild);    //构造左子树
        CreatBiTree(&(*T)->rchild);    //构造右子树
    }
}

9.线索二叉树
对于一个有n个结点的二叉链表,每个结点有指向左右孩子的两个指针域,所以一共是2n个指针域。而n个结点的二叉树一共有n-1条分支线,也就是说,其实是存在2n-(n-1)=n+1个空指针域。这些空间不存储任何事物,白白浪费着内存的资源。我们可以考虑利用那些空地址,存放指向结点在某种遍历次序下的前序和后继结点的地址。我们把这种指向前驱和后继的指针称为线索,加上线索的二叉链表称为线索链表,相应的二叉树就成为线索二叉树(Threaded Binary Tree)。
其实线索二叉树,等于是把一棵二叉树转变成了一个双向链表,这样对我们的插入删除结点、查找某个结点都带来了方便。所以我们对二叉树以某种次序遍历使其变为线索二叉树的过程称做是线索化。
下面是线索二叉树结构实现代码

//二叉树的二叉线索存储结构定义
typedef enum{
    Link, Thread;          //Link == 0表示指向左右孩子指针  Thread == 1表示指向前驱或后继的线索
}PointerTag;
typedef struct BiThrNode{  //二叉线索存储结点结构
    TElemType data;        //结点数据
    struct BiThrNode *lchild, *rchild;     //左右孩子指针
    PointerTag LTag;
    PointerTag RTag;       //左右标志
}BiThrNode, *BiThrtree;

由于前驱和后继的信息只有在遍历该二叉树时才能得到,所以线索化的过程就是在遍历的过程中修改空指针的过程。
中序遍历线索化的递归函数代码如下

BiThrtree pre;   //全局变量,始终指向刚刚访问过的结点
//中序遍历进行中序线索化
void InThreading(BiThrTree p){
    if(p){
        InThreading(p->lchild);  //递归左子树线索化
        if(!p->lchild){          //前驱没有左孩子
            p->LTag = Thread;    //前驱线索
            p->lchild = pre;     //左孩子指针指向前驱
        }
        if(!pre->rchild){        //前驱没有右孩子
            pre->RTag = Thread;  //后继线索
            pre->rchild = p;     //前驱右孩子指针指向后继(当前结点p)
        }
        pre = p;
        InThreading(p->rchild);  //递归右子树线索化
    }
}

有了线索二叉树后,我们对它进行遍历时发现,其实就等于是操作一个双向链表结构。
和双向链表一样,在二叉树线索链表上添加一个头结点,并令其lchild域的指针指向二叉树的根结点,其rchild域的指针指向中序遍历时访问的最后一个结点。反之,令二叉树的中序遍历中的第一个结点中,lchild域指针和最后一个结点rchild域指针均指向头结点。
这样定义的好处就是我们既可以从第一个结点起顺后继进行遍历,也可以从最后一个结点起顺前驱进行遍历。

//T指向头结点,头结点左链lchild指向根结点,头结点右链rchild指向中序遍历的最后一个结点。中序遍历二叉线索链表表示的二叉树
Status InOrderTraverse_Thr(BiThrtree T){
    BiThrTree p;
    p = T->lchild;                //p指向根结点
    while(p != T){                //空树或遍历结束时, p == T;
        while(p->LTag == Link)    //当LTag == 0时循环到中序序列第一个结点
            p = p->lchild;
        printf("%c", p->data);    //显示结点数据,可以更改为其他对结点操作
        while(p->RTag == Thread && p->rchild != T){
            p = p->rchild;
            printf("%c", p->data);
        }
        p = p->rchild;            //p进至其右子树根
    }
    return OK;
}

由于它充分利用了空指针域的空间(这等于节省了空间),又保证了创建时的一次遍历就可以终生受用前驱后继的信息(这意味着节省了时间)。所以在实际问题中,如果所用的二叉树需经常遍历或查找结点时需要某种遍历序列中的前驱和后继,那么采用线索二叉链表的存储结构就是非常不错的选择。
5.树、森林与二叉树的转换
1.树转换为二叉树
①加线。在所有兄弟结点之间加一条连线。
②去线。对树中每个结点,只保留它与第一个孩子结点的连线,删除它与其他孩子结点之间的连线。
③层次调整。以树的根结点为轴心,将整棵树顺时针旋转一定的角度,使之结构层次分明。注意第一个孩子是二叉树结点的左孩子,兄弟转换过来的孩子是结点的右孩子。
2.森林转换为二叉树
森林是由若干棵树组成,所以完全可以理解为,森林中的每一棵树都是兄弟,可以按照兄弟的处理方法来操作。
①把每个树转换为二叉树。
②第一棵二叉树不动,从第二棵二叉树开始,依次把后一棵二叉树的根结点作为前一棵二叉树的根结点的右孩子,用线连接起来。当所有的二叉树连接起来后就得到了由森林转换来的二叉树。
3.二叉树转换为树
①加线。若某结点的左孩子结点存在,则将这个左孩子的右孩子结点、右孩子的右孩子结点、右孩子的右孩子的右孩子结点……哈,反正就是左孩子的n个右孩子结点都作为此结点的孩子。将该结点与这些右孩子结点用线连接起来。
②去线。删除原二叉树中所有结点与其右孩子结点的连线。
③层次调整。使之结构层次分明。
4.二叉树转换为森林
1.从根结点开始,若右孩子存在,则把与右孩子结点的连线删除,再查看分离后的二叉树,若右孩子存在,则连线删除,再查看分离后的二叉树,若右孩子存在,则连线删除……,直到所有右孩子连线都删除为止,得到分离的二叉树。
2.再将每棵分离后的二叉树转换为树即可。

发布了47 篇原创文章 · 获赞 102 · 访问量 6万+

猜你喜欢

转载自blog.csdn.net/MarcoAsensio/article/details/87911993
今日推荐