【数据结构】数据结构与算法知识梳理(上):数据结构篇

一、什么是数据结构
    1、数据结构的起源
        1968年,美国的高纳德教授开设了一门基本算法的课程,开创了数据结构的先河。
        数据结构是一门研究数据之间关系和操作的学科,而非是计算方法。
        数据结构+算法=程序 沃思凭借这名个论点,获得图灵奖,这句话展示出了程序的本质。
    2、数据结构的基本概念
        数据:所有能够输入到计算机中去描述事物的符号。
        数据项:有独立含义的数据最小单位,也叫域。
        数据元素:数据的基本单位也叫节点、记录。
        数据结构:数据元素和数据关系的集合。
        算法:数据结构所具备的功能,解决特定的问题的方法。
    3、数据结构的三个方面
        数据的逻辑结构
        数据的存储结构
        数据结构的运算

二、逻辑结构和存储结构
    数据的逻辑结构:
        集合:数据元素同属于一个集体,但元素之间没有任何关系。
        线性结构:数据元素之间存在一对一关系(表)。
        树型结构:数据元素之间存在一对多关系(倒悬树)。
        图型结构:数据元素之间存在多对多关系(地图)
    数据的物理结构:
        顺序结构:数据元素存储在连续的内存中,用数据元素的相对位置来表示关系。
            优点:随机访问,访问效率极高。
            缺点:空间利用率低,对内存要求比较高,插入、删除不方便。
        链式结构:数据元素存储在彼此独立的内存空间中,每个独立的元素也叫节点,每个数据元素中增加一个数据项用于存储其它元素的地址,用来表示元素之间的关系。
            优点:插入、删除方便,空间利用率高。
            缺点:不能随机访问,只能由前到后逐个访问。
    逻辑结构和物理结构的对应关系:
        表  顺序 链式
        树  链式 顺序
        图  顺序+链式
        每种逻辑结构采用什么物理结构存储并没有明确规定,通常根据实际的难易程度以及空间、时间方面的要求,来选择最合适的物理存储结构。

三、数据结构和运算
    1、建立数据结构 create
    2、销毁数据结构 destory
    3、清空数据结构 clean
    4、数据结构排序 sort
    5、删除元素 delete
    6、插入元素 insert
    7、访问元素 access
    8、修改元素 modify
    9、查询元素 query 
    10、遍历数据结构 ergodic show print

四、顺序表和链式表的实现
    顺序表:
        数据项:
            存储元素的内存首地址
            表的容量
            元素的数量

        运算:
            创建、销毁、清空、 插入、删除、访问、修改、查询、排序、遍历
            注意:
                1、不要越界
                2、要保持元素的连续性

        优点:支持随机访问,修改、查询、排序效率比较高,大块连续的内存不易产生内存碎片。
        缺点:对内存的要求比较高(内存连续),插入、删除元素时不方便,效率低。

    链式表:
        元素的数据项:
            数据域:可以是各种类型的若干个数据项
            指针域:指向下一元素
        由若干个元素通过指针域连接在一起形成链式表。
        
        不带头节点:第一个元素的数据域存储的就是有效的数据。
            添加删除时可以会修改头节点指针,参数需要使用二维指针。
            同时需要获取到上一个节点的指针,而头节点没有上一个节点,因此需要额外处理。
            
        带头节点:第一个元素不使用,仅仅是为了用它来指向下一元素。


树型结构:
    1、树的基本概念
        一种表示层次关系的(一对多)数据结构。
        有且仅有一个特定的节点,该节点没有前驱,被称为根节点。
        剩余的n个互不相交的子集,其中每个子集也都是一棵树,被称为根节点的子树。
        注意:树型结构具有递归性(树中有树)。
    2、树的表示方法:倒悬树、嵌套法、凹凸法。
    3、树的专业术语:
        节点:组成树的基础元素,同时它也是一棵树。
        节点的度:该节点子树的数量。
        树的度(密度):树中节点的数量。
        叶子节点:节点的度为0的节点。
        双亲和孩子:节点的子树被称为孩子节点,该节点就是它们的双亲。
        兄弟:具有同一个双亲节点,被称为兄弟节点。
        祖先:从根节点出发到该节点,经过的所有节点都被称为该节点的祖先。
        子孙:一个节点的子树中的任意一个节点都被称为它的子孙。
        节点的层次:根节点层次为1,它的孩子层次为2,孩子的防止层次为3,依次类推。
        堂兄弟:双亲在同一层互为堂兄弟。
        树的深度:树的最大层次为树的深度。
        森林:n个不相交的树的集合被称为森林。
    4、树的存储
        树可以顺序存储、链式存储,也可以混合存储,由于存储的信息不同,有以下表示方式:
            双亲表示法:顺序
                位置  data 双亲
                  0    A   -1
                  1    B   0
                  2    C   0
                  3    D   1
                  4    E   2
                  5    G   4
                  6    F   4
                  7    H   2
                优点:方便找到双亲,缺点:查找孩子节点不方便。
            孩子表示法:
                顺序:浪费空间
                 位置  data sub_arr
                  0    A    1,2
                  1    B    3
                  2    C    4,7
                  3    D   
                  4    E    5,6
                  5    G   
                  6    F   
                  7    H    
                链式:节约空间
                  位置  data ListHead
                  0    A     
                  1    B    
                  2    C    
                  3    D   
                  4    E    
                  5    G   
                  6    F   
                  7    H 
                优点:方便找孩子,缺点:不方便找双亲结点。
            兄弟表示法:   
                双亲只存储第一个子节点,然后链式指向所有兄弟节点。
                优点:可以方便的查询到兄弟节点 缺点:查询双亲比较麻烦
                数据 第一个子节点 兄弟节点头指针 
二叉树:
    是常用的一种数据结构,处理起来比普通简单,而且普通树可以很方便转换成二叉树。
    定义:二叉树是n个有限元素的集合,由一个称为根(root)的元素及两个不相交的、被分别称为左子树和右子树的二叉树组成,是有序树。当集合为空时,称该二叉树为空二叉树。

    二叉树的性质:
        性质1:二叉树的第i层上最多有2^(i-1)个节点。
            每层的节点数都是2^(i-1),这种树叫满二叉树。
            对树中的结点按从上至下、从左到右的顺序进行编号,如果编号为i(1≤i≤n)的结点与满二叉树中编号为i的结点在二叉树中的位置相同,则这棵二叉树称为完全二叉树。
        性质2:深度为h的二叉树中至多含有2^h-1个节点。
        性质3:若在任意一棵二叉树中,有n0个叶子节点,有n2个度为2的节点,则必有n0=n2+1。
        性质4:具有n个节点的完全二叉树深为log2^n+1。
        性质5:若对一棵有n个节点的完全二叉树进行顺序编号(1≤i≤n),那么,对于编号为i(i≥1)的节点: 
            当i=1时,该节点为根,它无双亲节点。
            当i>1时,该节点的双亲节点的编号为i/2(顺序存储)。
            如果2*i<=n,则编号为2*i 则有编号为i的左孩子。
            如果2*i+1<=n,则编号为 2*i+1 为编号为i的右孩子。 
    二叉树的操作:
        构建、销毁、遍历、高度、密度、插入、删除、查询、求左、求右、求根
 destory(root)
        {
            if(NULL == root)return;
            destory(root->left);
            destory(root->right);
            free(root);
        }

        high(TreeNode* root)
        {
            if(NULL == root) return 0;
            int lh = high(root->left);
            int rh = high(root->right);
            return lh>rh?lh+1:rh+1;
        }

        density(TreeNode* root)
        {
            if(NULL == root) return 0;
            return density(root->left)+density(root->right)+1;
        }

        insert(TreeNode* root,pdata,data)
        {
            if(NULL == root) return false;
            if(root->data == pdata)
            {
                if(NULL == root->left)
                    return root->left = create_node(data);
                if(NULL == root->right)
                    return root->right = create_node(data);
                return false; 
            }

            return insert(root->left) || insert(root->right); 
        }
    二叉树的存储:
        顺序:必须按照完全二叉树的格式存储,空位置使用特殊数据代替。
        数据项:
            存储节点的内存
            容量
    二叉树的遍历:
        前序:根、左、右
        中序:左、根、右
        后序:左、右、根
        注意:前中后由根节点决定,不存在左、左根的后序,左、右子的次序不变。
        注意:根据 前序+中序 或者 中序+后序 还原一棵树,前序+后序无法还原(无法判断出根节点的左右子树)。
        层序:从上到下、从左到右遍历一棵树,必须与队列配合。

线索二叉树:
    链式二叉树中有很多空指针,可以让这些指针指向下一个节点,这样在遍历树时可以不用递归而是使用循环,可以提高树的遍历速度。

    中序线过树节点数据项:
        数据
        左子树指针
        右子树指针
        右子树指针标志(假表示指向的是右子树,真表示指向的是下一个节点)

    实现过程:
        1、创建线索
        2、按照线索进行遍历
选择树:
    是一种完全二叉树,待比较的数据存储在最后一层,根节点是左右子树的其中一个,是它们的最大的或最小的,选择树的功能就是快速找出其中的最大值或最小值。

堆:
    是一种完全二叉树,不适合链式存储。
    大顶堆:根节点比左右子树大。
    小顶堆:根节点比左右子树小。
    数据项:
        存储数据的内存首地址
        容量
        数量
    运算:
        创建,调整,插入,删除,空堆,满堆
    堆可以实现优先队列的效果。

平衡二叉树:
    前提是有序的二叉树,它的左右子树的高相差不超过1,它的所有的子树也要满足这个要求。
    如果一个有序二叉树呈单支状(接近单支),它的效率接近链表,因此只有达到平衡时它的效率才最高。
    由于节点的位置受值的影响,因此只能进行调整,而不能强行修改。

    二叉树不平衡的基础原因:
          x                            y 
         / \                         /   \
        y   t1  以为轴向右旋转       z     x
       / \                         / \   / \
      Z   t2                      t3 t4 t2 t1
     / \
    t4  t3

      x                                  y
     / \                               /   \
    t1  y                             x     z
       / \      心y为轴向左旋转       / \   / \
      t2  z                         t1 t2 t3 t4
         / \                             
        t3  t4

          x                 x                z
         / \               / \             /   \
        y   t1            z   t1          y     x
       / \               / \             / \   / \
      t4  z             y   t2          t4 t3 t2 t1
         /  \          / \
        t3   t2       t4  t3
    以z为轴向左旋转    以z为轴向右旋转    最终达到平衡

        x                 x                   z
       / \               / \                /   \
      t1  y             t1  z              x     y
         / \               / \            / \   / \
        z  t4             t2  y          t1 t2 t3  t4
       / \                   / \
      t2  t3                t3 t4
    以z为轴向右旋转    心z为轴向左旋转

红黑树:
   也一种自平衡的二叉树,它不是根据子树的高度来调整平衡的,而是给节点设置一个颜色,来达到平衡。
   优点:插入与删除的效率,比AVL树要高。
   缺点:没有AVL均匀,查找效率没AVL树高。

图(Graph)型结构:
   什么图型结构:由顶点的有穷且非空和顶点之间边的集合.
   通常表示:G(V,E),G表示一个图,V是图中顶点集合(元素),E是图中边(元素之间的关系)的集合。

   无向图:
      边用(A,B)方式表示,点与点之间是互通的。
      在无向图中,任意两个顶点之间都有边,该图称为无向完全图,则含有n个顶点的无向完全图有,n*(n-1)/2条边。
   有向图:
      边用<A,B>方式表示,仅仅是A到到B点,有向图的边也叫弧,A是弧尾,B是弧头。
      在有向图中,任意两个顶点之间都方向相反的两条弧,这种图叫有向完全图,则含有n个顶点的有向完全图有,n*(n-1)。
   注意:不存在顶点到自身的边,且一条边不重复出现,这种图叫简单图,数据结构中只研究简单图。 

   图的点多边少的图叫稀疏图,反之的叫稠密图,图的点与点之间边带数据,这些数据叫作边的权重,带权重的图被称为网。

   依附于顶点的边的数量叫作顶的度,有向图双分为出度(从顶出的的弧的数量)和入度(指向顶点的弧的数量)。

   路径:顶点到顶点经过的边叫路径,边的数量叫路径的长度。
   第一个顶点到最后一个顶的路径是相同的,这种路径叫回路或者环。
   序列顶点中不重复出现的路径称为简单路径,除了第一个顶点和最后一个顶点,其余顶点不重复出现的回路叫简单回路。

   如果顶点V到顶点V1有路径,则称V和V1是连通的,如果图中和任意顶点之间是连通的,则称图为连通图,如果一个图中有n个顶点那么至少需要n-1条边才能达到连通图,仅需要n-1边的连通叫生成树,如果再配合上权重,代价最的叫最小生成树。

树的存储结构:
   阾接矩阵:
      用一个一维数组来存储n个顶点,用一个n*n二维数组来存储边。
      char V[n] = {A,B,C,D,E,F,G};
            A  B  C  D  E  F  G
         A [0][0][0][1][1][0][0]
         B [0][0][0][0][0][0][0]
         C [0][0][0][0][0][0][0]
         D [1][0][0][0][0][0][0]
         E [0][0][0][0][0][0][0]
         F [0][0][0][0][0][0][0]
         G [0][0][0][0][0][0][0]
         二维数组中E[i][j]的值为1,则表示项V[i],到顶点V[j]有边。
         注意:由于不存在自己到自己的边,主对角线上的值为假。
         如果存储的是无向图则二维数组中的值沿主对角线对称,可以压缩为一维数组(参看矩阵压缩)。

   
   阾接表:
      边:
         顶点下标
         下一条边的地址
      顶点:
         数据
         指向第一条边的指针
      图:
         由顶点组成的数组            
         顶点数量cnt
      优点:可以节约存储空间,计算入度麻烦。

   十字链表:
      边:
         弧尾下标
         弧头下标
         指向相同弧尾的下一条边
         指向相同弧头的下一条边

      顶点:
         数据
         指向第一条边的指针
         指向入度的边
      图:
         由顶点组成的数组            
         顶点数量cnt

   阾接多重表:
      是一种专门存储无向图的一种结构。
      边:
         i,j 两个互相依附的顶点的下标
         inext 指向下一个依附i项点的边
         jnext 指向下一个依附j项点的边

      顶点:
         数据 
         指向与顶点有关系的一条边。
         
      图:
         由顶点组成的数组。
         顶点数量

猜你喜欢

转载自blog.csdn.net/weixin_48994377/article/details/108164031