程序员的自我修养--链接、装载与库笔记：编译和链接

集成开发环境(IDE)，如Visual Studio，一般都将编译和链接的过程一步完成，通常将这种编译和链接合并到一起的过程称为构建(Build)。

1. 被隐藏了的过程

以下是测试代码hello.c：

#include <stdio.h>

int main()
{
	printf("Hello World\n");
	return 0;
}

在Linux下执行以下命令：将会在屏幕输出：Hello World

gcc hello.c; ./a.out

上述过程可以分解为4个步骤：分别是预处理(Prepressing)、编译(Compilation)、汇编(Assembly)和链接(Linking)，如下图所示：

预编译：首先是源代码文件hello.c和相关的头文件，如stdio.h等被预编译器cpp预编译成一个.i文件。对于C++程序来说，它的源代码文件的扩展名可能是.cpp或.cxx，头文件的扩展名可能是.hpp，而预编译后的文件扩展名是.ii。第一步预编译的过程相当于如下命令(-E表示只进行预编译)：

# 以下两条命令执行结果相同，任选其一执行即可
gcc -E hello.c -o hello.i
cpp hello.c > hello.i

生成的hello.i文件的部分内容如下：

预编译过程主要处理那些源代码文件中的以”#”开始的预编译指令。比如”#include”、”#defing”等，主要处理规则如下：

(1). 将所有的”#define”删除，并且展开所有的宏定义。

(2). 处理所有条件预编译指令，比如”#if”、”#ifdef”、“#elif”、“#else”、”#endif”。

(3). 处理”#include”预编译指令，将被包含的文件插入到该项预编译指令的位置。注意：这个过程是递归进行的，也就是说被包含的文件可能还包含其它文件。

(4). 删除所有的注释”//”和”/* */”。

(5). 添加行号和文件名标识，比如# 1 “hello.c”，1，以便于编译时编译器产生调试用的行号信息及用于编译时产生编译错误或警告时能够显示行号。

(6). 保留所有的#pragma编译器指令，因为编译器须要使用它们。

经过预编译后的.i文件不包含任何宏定义，因为所有的宏已经被展开，并且包含的文件也已经被插入到.i文件中。所以当我们无法判断宏定义是否正确或头文件包含是否正确时，可以查看预编译后的文件来确定问题。

编译：编译过程就是把预处理完的文件进行一系列词法分析、语法分析、语义分析及优化后生成相应的汇编代码文件，这个过程往往是我们所说的整个程序构建的核心部分，也是最复杂的部分之一。编译过程相当于执行如下命令：

gcc -S hello.i -o hello.s

生成的hello.s文件内容如下：

现在版本的GCC把预编译和编译两个步骤合成一个步骤，使用一个叫做cc1的程序来完成这两个步骤。这个程序位于”/usr/lib/gcc/x86_64-linux-gnu/4.9/cc1”，我们也可以直接调用cc1来完成它，执行如下命令，输出结果如下，同时会生成hello.s文件。

/usr/lib/gcc/x86_64-linux-gnu/4.9/cc1 hello.c  -I/usr/include/x86_64-linux-gnu

或者使用如下命令，也会生成hello.s文件。

gcc -S hello.c -o hello.s

对于C语言的代码来说，这个预编译和编译的程序是cc1，对于C++来说，有对应的程序叫做cc1plus，Objective-C是cc1obj，fortran是f771，Java是jc1。所以实际上gcc这个命令只是这些后台程序的包装，它会根据不同的参数要求去调用预编译编译程序cc1、汇编器as、链接器ld。

汇编：汇编器是将汇编代码转变成机器可以执行的指令，每一个汇编语句几乎都对应一条机器指令。所以汇编器的汇编过程相对于编译器来讲比较简单，它没有复杂的语法，也没有语义，也不需要做指令优化，只是根据汇编指令和机器指令的对照表一一翻译就可以了，可执行如下命令：

# 以下三条命令执行结果相同，任选其一执行即可
as hello.s -o hello.o
gcc -c hello.s -o hello.o
gcc -c hello.c -o hello.o

链接：执行如下命令后会生成a.out执行文件：

ld -static /usr/lib/x86_64-linux-gnu/crt1.o /usr/lib/x86_64-linux-gnu/crti.o /usr/lib/gcc/x86_64-linux-gnu/4.9/crtbeginT.o -L/usr/lib/gcc/x86_64-linux-gnu/4.9 -L/usr/lib -L/lib hello.o --start-group -lgcc -lgcc_eh -lc --end-group /usr/lib/gcc/x86_64-linux-gnu/4.9/crtend.o /usr/lib/x86_64-linux-gnu/crtn.o

2. 编译器做了什么

从最直观的角度来讲，编译器就是将高级语言翻译成机器语言的一个工具。比如我们用C/C++语言写的一个程序可以使用编译器将其翻译成机器可以执行的指令及数据。高级语言使得程序员们能够更加关注程序逻辑的本身，而尽量少考虑计算机本身的限制，如字长、内存大小、通信方式、存储方式等。

编译过程一般可分为6步：扫描、语法分析、语义分析、源代码优化、代码生成和目标代码优化，如下图：

词法分析：首先源代码程序被输入到扫描器(Scanner)，扫描器的任务很简单，它只是简单地进行词法分析，运用一种类似于有限状态机(Finite State Machine)的算法可以很轻松地将源代码的字符序列分割成一系列的记号(Token)。

词法分析产生的记号一般可以分为如下几类：关键字、标识符、字面量(包含数字、字符串等)和特殊符号(如加号、等号)。在识别记号的同时，扫描器也完成了其它工作，比如将标识符存放到符号表，将数字、字符串常量存放到文字表等，以备后面的步骤使用。

有一个叫做lex(可参考https://zh.wikipedia.org/wiki/Lex )的程序可以实现词法扫描，它会按照用户之前描述好的词法规则将输入的字符串分隔成一个个记号。因为这样一个程序的存在，编译器的开发者就无须为每个编译器开发一个独立的词法扫描器，而是根据需要改变词法规则就可以了。另外对于一些有预处理的语言，比如C语言，它的宏替换和文件包含等工作一般不归入编译器的范围而交给一个独立的预处理器。

语法分析：接下来语法分析器(Grammar Parser)将对由扫描器产生的记号进行语法分析，从而产生语法树(Syntax Tree)。整个分析过程采用了上下文无关语法(Context-free Grammar)的分析手段。简单地讲，由语法分析器生成的语法树就是以表达式(Expression)为节点的树。C语言的一个语句是一个表达式，而复杂的语句是很多表达式的组合。语法分析阶段必须对表达式内容进行区分，如果出现了表达式不合法，比如各种括号不匹配、表达式中缺少操作符等，编译器就会报告语法分析阶段的错误。

语法分析也有一个现成的工具叫做yacc(Yet Another Compiler Compiler, 可参考https://zh.wikipedia.org/wiki/Yacc )。它也像lex一样，可以根据用户给定的语法规则对输入的记号序列进行解析，从而构建出一课语法树。对于不同的编程语言，编译器的开发者只需改变语法规则，而无须为每个编译器编写一个语法分析器，所以它又被称为”编译器编译器(Compiler Compiler)”。

语义分析：接下来进行的是语义分析，由语义分析器(Semantic Analyzer)来完成。语法分析仅仅是完成了对表达式的语法层面的分析，但是它并不了解这个语句是否真正有意义。比如C语言里面两个指针做乘法运算是没有意义的，但是这个语句在语法上是合法的；比如同样一个指针和一个浮点数做乘法运算是否合法等。编译器所能分析的语义是静态语义(Static Semantic)，所谓静态语义是指在编译期可以确定的语义，与之对应的动态语义(Dynamic Semantic)就是只有在运行期才能确定的语义。

静态语义通常包括声明和类型的匹配，类型的转换。比如当一个浮点型的表达式赋值给一个整型的表达式时，其中隐含了一个浮点到整型转换的过程，语义分析过程中需要完成这个步骤。比如将一个浮点型赋值给一个指针的时候，语义分析程序会发现这个类型不匹配，编译器将会报错。动态语义一般指在运行期出现的语义相关的问题，比如将0作为除数是一个运行期语义错误。

经过语义分析阶段以后，整个语法树的表达式都被标识了类型，如果有些类型需要做隐式转换，语义分析程序会在语法树中插入相应的转换节点。

中间语言生成：现代的编译器有着很多层次的优化，往往在源代码级别会有一个优化过程。这里所描述的源码级优化器(Source Code Optimizer)在不同的编译器中可能会有不同的定义或有一些其它的差异。源代码级优化器会在源代码级别进行优化。其实直接在语法树上作优化比较困难，所以源代码优化器往往将整个语法树转换成中间代码(Intermediate Code)，它是语法树的顺序表示，其实它已经非常接近目标代码了。但是它一般跟目标机器和运行时环境是无关的，在不同的编译器中有着不同的形式，比较常见的有：三地址码(Three-address Code)和P-代码(P-Code)。最基本的三地址码是这样的：x = y op z

这个三地址码表示将变量y和z进行op操作以后，赋值给x。这里op操作可以是算数运算，比如加减乘除等，也可以是其它任何可以应用到y和z的操作。

中间代码使得编译器可以被分为前端和后端。编译器前端负责产生机器无关的中间代码，编译器后端将中间代码转换成目标机器代码。这样对于一些可以跨平台的编译器而言，它们可以针对不同的平台使用同一个前端和针对不同机器平台的数个后端。

目标代码生成与优化：源代码级优化器产生中间代码标志着下面的过程都属于编译器后端。编译器后端主要包括代码生成器(Code Generator)和目标代码优化器(Target Code Optimizer)。代码生成器将中间代码转换成目标机器代码，这个过程十分依赖于目标机器，因为不同的机器有着不同的字长、寄存器、整数数据类型和浮点数数据类型等。最后目标代码优化器对目标代码进行优化，比如选择合适的寻址方式、使用位移来代替乘法运算、删除多余的指令等。

经过扫描、语法分析、语义分析、源代码优化、代码生成和目标代码优化，编译器通过这么多个步骤以后，源代码终于被编译成了目标代码。

编译器可以将一个源代码文件编译成一个未链接的目标文件，然后由链接器最终将这些目标文件链接起来形成可执行文件。

3. 链接器年龄比编译器长

计算机的程序开发并非从一开始就有着这么复杂的自动化编译、链接过程。原始的链接概念远在高级程序语言发明之前就已经存在了，在最开始的时候，程序员(当时程序员的概念应该跟现在相差很大了)先把一个程序在纸上写好，当然当时没有很高级的语言，用的都是机器语言，甚至连汇编语言都没有。当程序须要被运行时，程序员人工将他写的程序写入到存储设备上，最原始的存储设备之一就是纸带，即在纸带上打相应的孔。汇编语言使用接近人类的各种符号和标记来帮助记忆。

符号(Symbol)这个概念随着汇编语言的普及迅速被使用，它用来表示一个地址，这个地址可能是一段子程序(后来发展成函数)的起始地址，也可以是一个变量的起始地址。

有了汇编语言以后，随之而来的是软件的规模也开始日渐庞大，这时程序的代码量也已经开始快速地膨胀，导致人们要开始考虑将不同功能的代码以一定的方式组织起来，使得更加容易阅读和理解，以便于日后修改和重复使用。自然而然，人们开始将代码按照功能或性质划分，分别形成不同的功能模块，不同的模块之间按照层次结构或其它结构来组织。

在一个程序被分隔成多个模块以后，这些模块之间最后如何组合形成一个单一的程序是须解决的问题。模块之间如何组合的问题可以归结为模块之间如何通信的问题，最常见的属于静态语言的C/C++模块之间通信有两种方式，一种是模块间的函数调用，另外一种是模块间的变量访问。函数访问须知道目标函数的地址，变量访问也须知道目标变量的地址，所以这两种方式都可以归结为一种方式，那就是模块间符号的引用。模块间依靠符号来通信类似于拼图版，定义符号的模块多出一块区域，引用该符号的模块刚好少了那一块区域，两者一拼接刚好完美组合。这个模块的拼接过程就是链接(Linking)。

4. 模块拼装----静态链接

人们把每个源代码模块独立地编译，然后按照须要将它们”组装”起来，这个组装模块的过程就是链接(Linking)。链接的主要内容就是把各个模块之间相互引用的部分都处理好，使得各个模块之间能够正确地衔接。从原理上来讲，链接器的工作就是把一些指令对其它符号地址的引用加以修正。链接过程主要包括了地址和空间分配(Address and Storage Allocation)、符号决议(Symbol Resolution)和重定位(Relocation)等这些步骤。

符号决议有时候也被叫做符号绑定(Symbol Binding)、名称绑定(Name Binding)、名称决议(Name Resolution)，甚至还有叫做地址绑定(Address Binding)、指令绑定(Instruction Binding)。大体上它们的意思都一样，但从细节角度来区分，它们之间还是存在一定区别的，比如”决议”更倾向于静态链接，而”绑定”更倾向于动态链接，即它们所使用的范围不一样。

最基本的静态链接过程如下图所示。每个模块的源代码文件(如.c)经过编译器编译成目标文件(Object File，一般扩展名为.o或.obj)，目标文件和库(Library)一起链接形成最终可执行文件。而最常见的库就是运行时库(Runtime Library)，它是支持程序运行的基本函数的集合。库其实是一组目标文件的包，就是一些最常用的代码编译成目标文件后打包存放。

现代的编译和链接过程也并非想象中的那么复杂。比如我们在程序模块main.c中使用另外一个模块func.c中的函数foo()。我们在main.c模块中每一处调用foo的时候都必须确切知道foo这个函数的地址，但是由于每个模块都是单独编译的，在编译器编译main.c的时候它并不知道foo函数的地址，所以它暂时把这些调用foo的指令的目标地址搁置，等待最后链接的时候由链接器去将这些指令的目标地址修正。如果没有链接器，须要我们手工把每个调用foo的指令进行修正，则填入正确的foo函数地址。当func.c模块被重新编译，foo函数的地址有可能改变时，那么我们在main.c中所有使用到foo的地址的指令将要全部重新调整。这些繁琐的工作将成为程序员的噩梦。使用链接器，你可以直接引用其它模块的函数和全局变量而无需知道它们的地址，因为链接器在链接的时候，会根据你所引用的符号foo，自动去相应的func.o模块查找foo的地址，然后将main.c模块中所有引用到foo的指令重新修正，让它们的目标地址为真正的foo函数的地址。这就是静态链接的最基本的过程和作用。这个地址修正的过程也被叫做重定位(Relocation)，每个要被修正的地方叫一个重定位入口(Relocation Entry)。重定位所做的就是给程序中每个这样的绝对地址引用的位置”打补丁”，使它们指向正确的地址。

在链接过程中，对其它定义在目标文件中的函数调用的指令须要被重新调整，对使用其它定义在其它目标文件的变量来说，也存在同样的问题。

GitHub： http://github.com/fengbingchun/Messy_Test

程序员的自我修养--链接、装载与库笔记：编译和链接

猜你喜欢