【数据结构】数据结构与算法知识梳理（上）：数据结构篇

一、什么是数据结构
1、数据结构的起源
1968年，美国的高纳德教授开设了一门基本算法的课程，开创了数据结构的先河。
数据结构是一门研究数据之间关系和操作的学科，而非是计算方法。
数据结构+算法=程序沃思凭借这名个论点，获得图灵奖，这句话展示出了程序的本质。
2、数据结构的基本概念
数据：所有能够输入到计算机中去描述事物的符号。
数据项：有独立含义的数据最小单位，也叫域。
数据元素：数据的基本单位也叫节点、记录。
数据结构：数据元素和数据关系的集合。
算法：数据结构所具备的功能，解决特定的问题的方法。
3、数据结构的三个方面
数据的逻辑结构
数据的存储结构
数据结构的运算

二、逻辑结构和存储结构
数据的逻辑结构：
集合：数据元素同属于一个集体，但元素之间没有任何关系。
线性结构：数据元素之间存在一对一关系（表）。
树型结构：数据元素之间存在一对多关系（倒悬树）。
图型结构：数据元素之间存在多对多关系（地图）
数据的物理结构：
顺序结构：数据元素存储在连续的内存中，用数据元素的相对位置来表示关系。
优点：随机访问，访问效率极高。
缺点：空间利用率低，对内存要求比较高，插入、删除不方便。
链式结构：数据元素存储在彼此独立的内存空间中，每个独立的元素也叫节点，每个数据元素中增加一个数据项用于存储其它元素的地址，用来表示元素之间的关系。
优点：插入、删除方便，空间利用率高。
缺点：不能随机访问，只能由前到后逐个访问。
逻辑结构和物理结构的对应关系：
表顺序链式
树链式顺序
图顺序+链式
每种逻辑结构采用什么物理结构存储并没有明确规定，通常根据实际的难易程度以及空间、时间方面的要求，来选择最合适的物理存储结构。

三、数据结构和运算
1、建立数据结构 create
2、销毁数据结构 destory
3、清空数据结构 clean
4、数据结构排序 sort
5、删除元素 delete
6、插入元素 insert
7、访问元素 access
8、修改元素 modify
9、查询元素 query
10、遍历数据结构 ergodic show print

四、顺序表和链式表的实现
顺序表：
数据项：
存储元素的内存首地址
表的容量
元素的数量

运算：
创建、销毁、清空、插入、删除、访问、修改、查询、排序、遍历
注意：
1、不要越界
2、要保持元素的连续性

优点：支持随机访问，修改、查询、排序效率比较高，大块连续的内存不易产生内存碎片。
缺点：对内存的要求比较高（内存连续），插入、删除元素时不方便，效率低。

链式表：
元素的数据项：
数据域：可以是各种类型的若干个数据项
指针域：指向下一元素
由若干个元素通过指针域连接在一起形成链式表。

不带头节点：第一个元素的数据域存储的就是有效的数据。
添加删除时可以会修改头节点指针，参数需要使用二维指针。
同时需要获取到上一个节点的指针，而头节点没有上一个节点，因此需要额外处理。

带头节点：第一个元素不使用，仅仅是为了用它来指向下一元素。

树型结构：
1、树的基本概念
一种表示层次关系的(一对多)数据结构。
有且仅有一个特定的节点，该节点没有前驱，被称为根节点。
剩余的n个互不相交的子集，其中每个子集也都是一棵树，被称为根节点的子树。
注意：树型结构具有递归性（树中有树）。
2、树的表示方法：倒悬树、嵌套法、凹凸法。
3、树的专业术语：
节点：组成树的基础元素，同时它也是一棵树。
节点的度：该节点子树的数量。
树的度(密度)：树中节点的数量。
叶子节点：节点的度为0的节点。
双亲和孩子：节点的子树被称为孩子节点，该节点就是它们的双亲。
兄弟：具有同一个双亲节点，被称为兄弟节点。
祖先：从根节点出发到该节点，经过的所有节点都被称为该节点的祖先。
子孙：一个节点的子树中的任意一个节点都被称为它的子孙。
节点的层次：根节点层次为1，它的孩子层次为2，孩子的防止层次为3，依次类推。
堂兄弟：双亲在同一层互为堂兄弟。
树的深度：树的最大层次为树的深度。
森林：n个不相交的树的集合被称为森林。
4、树的存储
树可以顺序存储、链式存储，也可以混合存储，由于存储的信息不同，有以下表示方式：
双亲表示法：顺序
位置 data 双亲
0 A -1
1 B 0
2 C 0
3 D 1
4 E 2
5 G 4
6 F 4
7 H 2
优点：方便找到双亲，缺点：查找孩子节点不方便。
孩子表示法：
顺序：浪费空间
位置 data sub_arr
0 A 1,2
1 B 3
2 C 4,7
3 D
4 E 5,6
5 G
6 F
7 H
链式：节约空间
位置 data ListHead
0 A
1 B
2 C
3 D
4 E
5 G
6 F
7 H
优点：方便找孩子，缺点：不方便找双亲结点。
兄弟表示法：
双亲只存储第一个子节点，然后链式指向所有兄弟节点。
优点：可以方便的查询到兄弟节点缺点：查询双亲比较麻烦
数据第一个子节点兄弟节点头指针
二叉树：
是常用的一种数据结构，处理起来比普通简单，而且普通树可以很方便转换成二叉树。
定义：二叉树是n个有限元素的集合，由一个称为根（root）的元素及两个不相交的、被分别称为左子树和右子树的二叉树组成，是有序树。当集合为空时，称该二叉树为空二叉树。

二叉树的性质：
性质1：二叉树的第i层上最多有2^(i-1)个节点。
每层的节点数都是2^(i-1)，这种树叫满二叉树。
对树中的结点按从上至下、从左到右的顺序进行编号，如果编号为i（1≤i≤n）的结点与满二叉树中编号为i的结点在二叉树中的位置相同，则这棵二叉树称为完全二叉树。
性质2：深度为h的二叉树中至多含有2^h-1个节点。
性质3：若在任意一棵二叉树中，有n0个叶子节点，有n2个度为2的节点，则必有n0=n2+1。
性质4：具有n个节点的完全二叉树深为log2^n+1。
性质5：若对一棵有n个节点的完全二叉树进行顺序编号（1≤i≤n），那么，对于编号为i（i≥1）的节点：
当i=1时，该节点为根，它无双亲节点。
当i>1时，该节点的双亲节点的编号为i/2(顺序存储)。
如果2*i<=n，则编号为2*i 则有编号为i的左孩子。
如果2*i+1<=n，则编号为 2*i+1 为编号为i的右孩子。
二叉树的操作：
构建、销毁、遍历、高度、密度、插入、删除、查询、求左、求右、求根
destory(root)
{
if(NULL == root)return;
destory(root->left);
destory(root->right);
free(root);
}

high(TreeNode* root)
{
if(NULL == root) return 0;
int lh = high(root->left);
int rh = high(root->right);
return lh>rh?lh+1:rh+1;
}

density(TreeNode* root)
{
if(NULL == root) return 0;
return density(root->left)+density(root->right)+1;
}

insert(TreeNode* root,pdata,data)
{
if(NULL == root) return false;
if(root->data == pdata)
{
if(NULL == root->left)
return root->left = create_node(data);
if(NULL == root->right)
return root->right = create_node(data);
return false;
}

return insert(root->left) || insert(root->right);
}
二叉树的存储：
顺序：必须按照完全二叉树的格式存储，空位置使用特殊数据代替。
数据项：
存储节点的内存
容量
二叉树的遍历：
前序：根、左、右
中序：左、根、右
后序：左、右、根
注意：前中后由根节点决定，不存在左、左根的后序，左、右子的次序不变。
注意：根据前序+中序或者中序+后序还原一棵树，前序+后序无法还原（无法判断出根节点的左右子树）。
层序：从上到下、从左到右遍历一棵树，必须与队列配合。

线索二叉树：
链式二叉树中有很多空指针，可以让这些指针指向下一个节点，这样在遍历树时可以不用递归而是使用循环，可以提高树的遍历速度。

中序线过树节点数据项：
数据
左子树指针
右子树指针
右子树指针标志(假表示指向的是右子树，真表示指向的是下一个节点)

实现过程：
1、创建线索
2、按照线索进行遍历
选择树：
是一种完全二叉树，待比较的数据存储在最后一层，根节点是左右子树的其中一个，是它们的最大的或最小的，选择树的功能就是快速找出其中的最大值或最小值。

堆：
是一种完全二叉树，不适合链式存储。
大顶堆：根节点比左右子树大。
小顶堆：根节点比左右子树小。
数据项：
存储数据的内存首地址
容量
数量
运算：
创建，调整，插入，删除，空堆，满堆
堆可以实现优先队列的效果。

平衡二叉树：
前提是有序的二叉树，它的左右子树的高相差不超过1，它的所有的子树也要满足这个要求。
如果一个有序二叉树呈单支状（接近单支），它的效率接近链表，因此只有达到平衡时它的效率才最高。
由于节点的位置受值的影响，因此只能进行调整，而不能强行修改。

二叉树不平衡的基础原因：
x y
/ \ / \
y t1 以为轴向右旋转 z x
/ \ / \ / \
Z t2 t3 t4 t2 t1
/ \
t4 t3

x y
/ \ / \
t1 y x z
/ \ 心y为轴向左旋转 / \ / \
t2 z t1 t2 t3 t4
/ \
t3 t4

x x z
/ \ / \ / \
y t1 z t1 y x
/ \ / \ / \ / \
t4 z y t2 t4 t3 t2 t1
/ \ / \
t3 t2 t4 t3
以z为轴向左旋转以z为轴向右旋转最终达到平衡

x x z
/ \ / \ / \
t1 y t1 z x y
/ \ / \ / \ / \
z t4 t2 y t1 t2 t3 t4
/ \ / \
t2 t3 t3 t4
以z为轴向右旋转心z为轴向左旋转

红黑树：
也一种自平衡的二叉树，它不是根据子树的高度来调整平衡的，而是给节点设置一个颜色，来达到平衡。
优点：插入与删除的效率，比AVL树要高。
缺点：没有AVL均匀，查找效率没AVL树高。

图(Graph)型结构：
什么图型结构：由顶点的有穷且非空和顶点之间边的集合.
通常表示：G(V,E)，G表示一个图，V是图中顶点集合(元素)，E是图中边(元素之间的关系)的集合。

无向图：
边用(A,B)方式表示，点与点之间是互通的。
在无向图中，任意两个顶点之间都有边，该图称为无向完全图，则含有n个顶点的无向完全图有，n*(n-1)/2条边。
有向图：
边用<A,B>方式表示，仅仅是A到到B点，有向图的边也叫弧，A是弧尾，B是弧头。
在有向图中，任意两个顶点之间都方向相反的两条弧，这种图叫有向完全图，则含有n个顶点的有向完全图有，n*(n-1)。
注意：不存在顶点到自身的边，且一条边不重复出现，这种图叫简单图，数据结构中只研究简单图。

图的点多边少的图叫稀疏图，反之的叫稠密图，图的点与点之间边带数据，这些数据叫作边的权重，带权重的图被称为网。

依附于顶点的边的数量叫作顶的度，有向图双分为出度(从顶出的的弧的数量)和入度(指向顶点的弧的数量)。

路径：顶点到顶点经过的边叫路径，边的数量叫路径的长度。
第一个顶点到最后一个顶的路径是相同的，这种路径叫回路或者环。
序列顶点中不重复出现的路径称为简单路径，除了第一个顶点和最后一个顶点，其余顶点不重复出现的回路叫简单回路。

如果顶点V到顶点V1有路径，则称V和V1是连通的，如果图中和任意顶点之间是连通的，则称图为连通图，如果一个图中有n个顶点那么至少需要n-1条边才能达到连通图，仅需要n-1边的连通叫生成树，如果再配合上权重，代价最的叫最小生成树。

树的存储结构：
阾接矩阵：
用一个一维数组来存储n个顶点，用一个n*n二维数组来存储边。
char V[n] = {A,B,C,D,E,F,G};
A B C D E F G
A [0][0][0][1][1][0][0]
B [0][0][0][0][0][0][0]
C [0][0][0][0][0][0][0]
D [1][0][0][0][0][0][0]
E [0][0][0][0][0][0][0]
F [0][0][0][0][0][0][0]
G [0][0][0][0][0][0][0]
二维数组中E[i][j]的值为1，则表示项V[i]，到顶点V[j]有边。
注意：由于不存在自己到自己的边，主对角线上的值为假。
如果存储的是无向图则二维数组中的值沿主对角线对称，可以压缩为一维数组（参看矩阵压缩）。

阾接表：
边：
顶点下标
下一条边的地址
顶点：
数据
指向第一条边的指针
图：
由顶点组成的数组
顶点数量cnt
优点：可以节约存储空间，计算入度麻烦。

十字链表：
边：
弧尾下标
弧头下标
指向相同弧尾的下一条边
指向相同弧头的下一条边

顶点：
数据
指向第一条边的指针
指向入度的边
图：
由顶点组成的数组
顶点数量cnt

阾接多重表：
是一种专门存储无向图的一种结构。
边：
i,j 两个互相依附的顶点的下标
inext 指向下一个依附i项点的边
jnext 指向下一个依附j项点的边

顶点：
数据
指向与顶点有关系的一条边。

图：
由顶点组成的数组。
顶点数量

【数据结构】数据结构与算法知识梳理（上）：数据结构篇

猜你喜欢