UNIX环境高级编程笔记之文件I/O

一、总结

　　在写之前，先唠几句，《UNIX环境高级编程》，简称APUE，这本书简直是本神书，像我这种小白，基本上每看完一章都是“哇”这种很吃惊的表情。其实大概三年前，那会大三，我就买了这本书，也看过一些，但好像没有留下什么印象，今天再看，依然觉得像新的一样。很大的原因我想是一直以来都在用Windows（用windows做开发为什么学不到真正的技术，我想大家都懂的），当然知识结构不完整，学习能力这些就不说了。所以，对于那些致力于想在Linux下做开发的人来说，这本说一定是强推的。

　　如果你分得清write和发fwrite，read和fread这些函数的区别，那这章也许就对你没什么吸引力了。本人之前面试腾讯，也被问到这个问题，当时胡乱瞎扯了一通，也真是囧。

　　这章大体上讲了两件事：1）什么是不带缓冲的I/O；2）如何在多个进程间共享文件。作为总结，我用自己的话简单说一下这两个问题，详细的内容可以看上面这幅图。

　　对于第一个问题，不带缓冲指的是每个read和write这些文件I/O操作都调用的是系统调用，属于内核态的操作。而诸如fread和fwrite这些标准I/O操作属于用户态操作，具体是库函数的实现，需要借助用户缓冲区来实现（关于用户态和内核态的理解请看Linux探秘之用户态与内核态）。所以，不带缓冲是相对带用户缓冲区来说的（如果只从字面上理解缓冲，其实文件I/O也是带缓冲的，只不过内核缓冲区，具体后面开一篇博客来讲）

　　对于第二个问题，文件的共享需要让多个文件间扯上关系，不然也没辙。UNIX使用三种数据结构（进程表项，文件表项和V-Node节点表项）来表示一个打开的文件，如下图。这样当多个进程访问一个文件，只用新建一个进程表项，然后引用对应的文件即可。其中存在着：一个进程对应一个独立的文件表项，一个文件仅有一个V-Node表项。

　　因为一个文件仅有一个V-Node表项，所以，为了保证文件在多个进程间共享，需要谨慎处理好文件的一致性。比如两个进程A和B要写数据到一个文件，一般调用的是lseek和write这两个函数，首先A lseek写入的位置（如1500），然后转到B 也lseek到1500，又转到A开始write 100个字节，文件长度变为1600个字节，又转到B，但B此时从第1500个字节处开始write，这就造成写文件错误。因此，对于这样的多个操作造成文件共享信息的不一致，UNIX给出的解决方案是原子操作，对于上面这种情况的一个解决方案是使用open+O_APPEND组合的原子操作。

二、看图说话

一图胜过千言，看图！

UNIX环境高级编程笔记之文件I/O

猜你喜欢