说一说\r与\n

动机

今天在用Python读取txt文件的时候，遇到了一个比较坑的问题，那就是“\n”和“\r”究竟有什么区别？”

历史

        在计算机还没有出现之前，人们设计了一种机器叫做电传打字机，这种机器每秒钟可以打10个字符。不过它有个问题，就是打完一行换行的时候，需要0.2s，正好可以打印两个字符，如果这个时候有新的字符传过来，那么这两个新的字符将会丢失。怎么办？研发人员就想了一个办法，在每行后面加上两个表示结束的字符，一个是“回车(return)”，另一个是“换行(newline)”。“回车”表示将打印机的打印头移回到左边界，“换行”表示将打印纸往上推一行（从而达到打印头往下移一行的效果）。
        通常我们将“\r”称作回车，而“\n”叫做换行。在Windows中，每行的结尾是“\r\n”，而Linux中，每行的结尾则是“\n”，在Mac中，则只有“\r”。这三者的区别导致了一个现象的发生：将Linux/Mac系统下的文件在Windows中打开时，所有的文字将会变成一行；而将Windows里的文件在Linux/Mac中打开时，则每行的结尾会多一个^M的符号。
        知道了文件在不同系统下每行结尾所用的符号差异之后，我们就知道如何解决文件打开的问题了。比如说，如果我们在Windows下打开某个文件，发现所有文字变成一行，那么我们可以使用文本编辑器将里面的所有“\n”或者“\r”换成“\r\n”。

在Python中如何处理

假如有一个txt文件，其中保存了一些数据，我们想要将这些数据读取出来，怎么办？比如：

data block1
1 2 3

data block2
4

data block3
5 6

首先，我们需要打开文件：

with open(file_path, 'r') as lines:
    ...

这个时候我们就以只读的方式打开了文件，并且是一行一行读取的，如果我们想要将其中的三个数据块分开怎么办？我们可以先用join()方法将这些lines结合为一个string，然后利用split()方法将它们拆开，但问题是，以什么样的标准拆开呢？或者说，给split()传入什么参数？这就涉及到该文件每行以什么方式结尾了。比方说，如果文件以“\r\n”结尾，则我们可以这么写：

array = []
with open(file_path, 'r') as lines:
    for line in lines:
        array.append(line)
array_string = ''.join(array)
data = array_string.split('\r\n\r\n')

通过上面的“\r\n\r\n”我们成功地将三个block分开了。不过这样做的话，我们得先确认文件以什么方式结尾，虽然这并不麻烦（ print(list(array)) ）就可以了。Python为我们提供了一个不用确认文件每行结尾的方式：

with open(file_path, 'rU') as lines:
...

U表示通用换行模式（Universal new line mode），这种模式将会把所有的换行符（“\r\n”）替换为“\n”，所以我们只需要这样写：

array = []
with open(file_path, 'rU') as lines:
    for line in lines:
        array.append(line)
array_string = ''.join(array)
data = array_string.split('\n\n')

这样看起来就开心很多了，不是么。

动机

历史

在Python中如何处理

猜你喜欢