C语言精华总结(一)

转自
http://zhenguohui.spaces.live.com/blog/cns!9551940217428bc!116.trak
一．指针
它的本质是地址的类型。在许多语言中根本就没有这个概念。但是它却正是C灵活，高效，在面向过程的时代所向披靡的原因所在。因为C的内存模型基本上对应了现在von Neumann（冯·诺伊曼）计算机的机器模型，很好的达到了对机器的映射。不过有些人似乎永远也不能理解指针【注1】。
注1：Joel Spolsky就是这样认为的，他认为对指针的理解是一种aptitude，不是通过训练就可以达到的
http://www.joelonsoftware.com/printerFriendly/articles/fog0000000073.html
指针可以指向值、数组、函数，当然它也可以作为值使用。
看下面的几个例子：
int*p;//p是一个指针，指向一个整数
int**p;//p是一个指针，它指向第二个指针，然后指向一个整数
int(*pa)[3];//pa是一个指针，指向一个拥有3个整数的数组
int(*pf)();//pf是一个指向函数的指针，这个函数返回一个整数
后面第四节我会详细讲解标识符（identifier）类型的识别。
1.指针本身的类型是什么？
先看下面的例子：int a;//a的类型是什么？
对，把a去掉就可以了。因此上面的4个声明语句中的指针本身的类型为：
int*
int**
int(*)[3]
int(*)()
它们都是复合类型，也就是类型与类型结合而成的类型。意义分别如下：
point to int（指向一个整数的指针）
pointer to pointer to int（指向一个指向整数的指针的指针）
pointer to array of 3 ints（指向一个拥有三个整数的数组的指针）
pointer to function of parameter is void and return value is int（指向一个函数的指针，这个函数参数为空，返回值为整数）
2.指针所指物的类型是什么？
很简单，指针本身的类型去掉“*”号就可以了，分别如下：
int
int*
int()[3]
int()()
3和4有点怪，不是吗？请擦亮你的眼睛，在那个用来把“*”号包住的“()”是多余的，所以：
int()[3]就是int[3]（一个拥有三个整数的数组）
int()()就是int()（一个函数，参数为空，返回值为整数）【注2】
注2：一个小小的提醒，第二个“()”是一个运算符，名字叫函数调用运算符（function call operator）。
3.指针的算术运算
请再次记住：指针不是一个简单的类型，它是一个和指针所指物的类型复合的类型。因此，它的算术运算与之（指针所指物的类型）密切相关。
int a[8];
int*p=a;
int*q=p+3;
p++;
指针的加减并不是指针本身的二进制表示加减，要记住，指针是一个元素的地址，它每加一次，就指向下一个元素。所以：
int*q=p+3;//q指向从p开始的第三个整数。
p++;//p指向下一个整数。
double*pd;
……//某些计算之后
double*pother=pd–2;//pother指向从pd倒数第二个double数。
4.指针本身的大小
在一个现代典型的32位机器上【注3】，机器的内存模型大概是这样的，想象一下，内存空间就像一个连续的房间群。每一个房间的大小是一个字节（一般是二进制8位）。有些东西大小是一个字节（比如char），一个房间就把它给安置了；但有些东西大小是几个字节（比如double就是8个字节，int就是4个字节，我说的是典型的32位），所以它就需要几个房间才能安置。
注3：什么叫32位？就是机器CPU一次处理的数据宽度是32位，机器的寄存器容量是32位，机器的数据，内存地址总线是32位。当然还有一些细节，但大致就是这样。16位，64位，128位可以以此类推。
这些房间都应该有编号（也就是地址），32位的机器内存地址空间当然也是32位，所以房间的每一个编号都用32位的二进制数来编码【注4】。请记住指针也可以作为值使用，作为值的时候，它也必须被安置在房间中（存储在内存中），那么指向一个值的指针需要一个地址大小来存储，即32位，4个字节，4个房间来存储。
注4：在我们平常用到的32位机器上，绝少有将32位真实内存地址空间全用完的（232＝4G），即使是服务器也不例外。现代的操作系统一般会实现32位的虚拟地址空间，这样可以方便运用程序的编制。关于虚拟地址（线性地址）和真实地址的区别以及实现，可以参考《Linux源代码情景分析》的第二章存储管理，在互联网上关于这个主题的文章汗牛充栋，你也可以google一下。
但请注意，在C++中指向对象成员的指针（pointer to member data or member function）的大小不一定是4个字节。为此我专门编制了一些程序，发现在我的两个编译器（VC7.1.3088和Dev-C++4.9.7.0）上，指向对象成员的指针的大小没有定值，但都是4的倍数。不同的编译器还有不同的值。对于一般的普通类（class），指向对象成员的指针大小一般为4，但在引入多重虚拟继承以及虚拟函数的时候，指向对象成员的指针会增大，不论是指向成员数据，还是成员函数。【注5】。
注5：在Andrei Alexandrescu的《Modern C++Design》的5.13节Page124中提到，成员函数指针实际上是带标记的（tagged）unions，它们可以对付多重虚拟继承以及虚拟函数，书上说成员函数指针大小是16，但我的实践告诉我这个结果不对，而且具体编译器实现也不同。一直很想看看GCC的源代码，但由于旁骛太多，而且心不静，本身难度也比较高（这个倒是不害怕^_^），只有留待以后了。
还有一点，对一个类的static member来说，指向它的指针只是普通的函数指针，不是pointer to class member，所以它的大小是4。
5.指针运算符&和*
它们是一对相反的操作，&取得一个东西的地址（也就是指针），*得到一个地址里放的东西。这个东西可以是值（对象）、函数、数组、类成员（class member）。
其实很简单，房间里面居住着一个人，&操作只能针对人，取得房间号码；
*操作只能针对房间，取得房间里的人。
参照指针本身的类型以及指针所指物的类型很好理解。
小结：其实你只要真正理解了1，2，就相当于掌握了指针的牛鼻子。后面的就不难了，指针的各种变化和C语言中其它普通类型的变化都差不多(比如各种转型)。
二．数组
在C语言中，对于数组你只需要理解三件事。
1．C语言中有且只有一维数组
所谓的n维数组只是一个称呼，一种方便的记法，都是使用一维数组来仿真的。
C语言中数组的元素可以是任何类型的东西，特别的是数组作为元素也可以。所以int a[3][4][5]就应该这样理解：a是一个拥有3个元素的数组，其中每个元素是一个拥有4个元素的数组，进一步其中每个元素是拥有5个整数元素的数组。
是不是很简单！数组a的内存模型你应该很容易就想出来了，不是吗？：）
2．数组的元素个数，必须作为整数常量在编译阶段就求出来
int i;
int a;//不合法，编译不会通过。
也许有人会奇怪char str[]=“test”;没有指定元素个数为什么也能通过，因为编译器可以根据后面的初始化字符串在编译阶段求出来，
不信你试试这个：int a[];
编译器无法推断，所以会判错说“array size missing in a”之类的信息。不过在最新的C99标准中实现了变长数组【注6】
注6：如果你是一个好奇心很强烈的人，就像我一样，那么可以查看C99标准6.7.5.2。
3．对于数组，可以获得数组第一个（即下标为0）元素的地址（也就是指针），从数组名获得
比如int a[5];int*p=a;这里p就得到了数组元素a[0]的地址。
其余对于数组的各种操作，其实都是对于指针的相应操作。比如a[3]其实就是*(a+3)的简单写法，由于*(a+3)==*(3+a)，所以在某些程序的代码中你会看到类似3[a]的这种奇怪表达式，现在你知道了，它就是a[3]的别名。还有一种奇怪的表达式类似a[-1]，现在你也明白了，它就是*(a-1)【注7】。
注7：你肯定是一个很负责任的人，而且也知道自己到底在干什么。你难道不是吗？：）所以你一定也知道，做一件事是要付出成本的，当然也应该获得多于成本的回报。
我很喜欢经济学，经济学的一个基础就是做什么事情都是要花成本的，即使你什么事情也不做。时间成本，金钱成本，机会成本，健康成本……可以这样说，经济学的根本目的就是用最小的成本获得最大的回报。
所以我们在自己的程序中最好避免这种邪恶的写法，不要让自己一时的智力过剩带来以后自己和他人长时间的痛苦。用韦小宝的一句话来说：“赔本的生意老子是不干的！”
但是对邪恶的了解是非常必要的，这样当我们真正遇到邪恶的时候，可以免受它对心灵的困扰！
对于指向同一个数组不同元素的指针，它们可以做减法，比如int*p=q+i;p-q的结果就是这两个指针之间的元素个数。i可以是负数。但是请记住：对指向不同的数组元素的指针，这样的做法是无用而且邪恶的！
对于所谓的n维数组，比如int a[2][3];你可以得到数组第一个元素的地址a和它的大小。*(a+0)（也即a[0]或者*a）就是第一个元素，它又是一个数组int[3]，继续取得它的第一个元素，*(*(a+0)+0)（也即a[0][0]或者*(*a)），也即第一个整数（第一行第一列的第一个整数）。如果采用这种表达式，就非常的笨拙，所以a[0][0]记法上的简便就非常的有用了！简单明了！
对于数组，你只能取用在数组有效范围内的元素和元素地址，不过最后一个元素的下一个元素的地址是个例外。它可以被用来方便数组的各种计算，特别是比较运算。但显然，它所指向的内容是不能拿来使用和改变的！
关于数组本身大概就这么多，下面简要说一下数组和指针的关系。它们的关系非常暧昧，有时候可以交替使用。
比如int main(int args,char*argv[])中，其实参数列表中的char*argv[]就是char**argv的另一种写法。因为在C语言中，一个数组是不能作为函数引数（argument）【注8】直接传递的。因为那样非常的损失效率，而这点违背了C语言设计时的基本理念——作为一门高效的系统设计语言。
注8：这里我没有使用函数实参这个大陆术语，而是运用了台湾术语，它们都是argument这个英文术语的翻译，但在很多地方中文的实参用的并不恰当，非常的勉强，而引数表示被引用的数，很形象，也很好理解。很快你就可以像我一样适应引数而不是实参。
dereferance，也就是*运算符操作。我也用的是提领，而不是解引用。
我认为你一定智勇双全：既有宽容的智慧，也有面对新事物的勇气！你不愿意承认吗？：）
所以在函数参数列表（parameter list）中的数组形式的参数声明，只是为了方便程序员的阅读！比如上面的char*argv[]就可以很容易的想到是对一个char*字符串数组进行操作，其实质是传递的char*字符串数组的首元素的地址（指针）。其它的元素当然可以由这个指针的加法间接提领（dereferance）【参考注8】得到！从而也就间接得到了整个数组。
但是数组和指针还是有区别的，比如在一个文件中有下面的定义：
char myname[]=“wuaihua”;
而在另一个文件中有下列声明：
extern char*myname;
它们互相是并不认识的，尽管你的本义是这样希望的。
它们对内存空间的使用方式不同【注9】。
对于char myname[]=“wuaihua”如下
myname
w
u
a
i
h
u
a
\0
对于char*myname；如下表
myname
\|/
w
u
a
i
h
u
a
\0
注9：可以参考Andrew Konig的《C陷阱与缺陷》4.5节。
改变的方法就是使它们一致就可以了。
char myname[]=“wuaihua”;
extern char myname[];
或者
char*myname=“wuaihua”;//C++中最好换成const
char*myname=“wuaihua”。
extern char*myname;

hopegrace

发布了208 篇原创文章 · 获赞 30 · 访问量 1万+

私信关注

C语言精华总结(一)

猜你喜欢