字符编码与文件操作2

一、复习

1、编码

ASCII--->Python--->Unicode

python2:默认ASCII,python:默认utf-8

编码表:人识别的标识符与计算机识别的标识符形成的对应关系

各编码表中字符(人能识别)所占字节(将字符转为二进制的中间产物)数

一个字节=8个二进制位(1个十六进制位=4个二进制位)

ASCII:1~2个字节

Unicode:2个字节

GBK:1~2个字节

UTF-8:Unicode编码的一种体现方式,1~6个字节

Unicode定长获取信息快速, UTF-8变长传输速度快

2、三种字符串

r’原义  字符串

u’最普通的字符

二进制字符串:用来传输的字符串

   1.是字符串(文本字符)的二进制体现,(如视频资源可以转化为二进制字符串,不翻转为视频资源,则就是普通字符串)

   2.二进制字符串按字节为最小单位存储单位存放数据

   3.所有数据转化为二进制字符串都应该用utf-8进行编码吗?

           ----只是文本数据

           ----视频、音频、图像等此类数据也有编码解码过程,采用的编码表不是utf-8,不用关心编                  码表

 字符与ASCII之间转化
res = ord('A')
print(res)
res = chr(65)
print(res)
# ascii:DBCS双字节存储可以存放中文等一些文字与字符,可以完成字符与整数(ascii表中整数)的转化
print(ord('⑩'), chr(9323))

3、文件基础读写

      1.打开文件

r = open('a.txt', 'r', encoding='utf-8')
w = open('a.txt', 'w', encoding='utf-8')

      2.操作

r.read()
w.write('msg')

     3.关闭文件

r.close()
w.close()

二、rw模式结合

w:没有文件就新建文件,有则清空
w = open('1.txt', 'w', encoding='utf-8')
w.write('000\n')

w.flush() 写一行刷一行
如果文件存在会将写入文件的内容及时刷从内存刷到硬盘
  应用:在写入大量数据,要及时处理内存空间,不然内存可能溢出导致数据丢失
  w.write('111\n')
  w.flush()   最后一次flush()操作可以省略

一次性写入多行
w.writelines(['222\n', '333\n'])
w.write('444')
w.newlines
w.write('555')

w.close()
1.将内存的的数据刷新到硬盘中;2.释放文件资源
需求:
1.完成文本类型的文件复制:1.txt => 11.txt
r = open('1.txt', 'r', encoding='utf-8')
w = open('11.txt', 'w', encoding='utf-8')
for line in r: # 遍历就是一行一行读 取读文件的流
w.write(line)
w.flush()
w.close()
r.close()

# 将文件的关闭交给with管理,当with中逻辑结束后,系统会自动释放文件
with open('1.txt', 'r', encoding='utf-8') as r, open('source.txt', 'w', encoding='utf-8') as w:
for line in r:
w.write(line)
w.flush()
# w.close() 系统自动完成
# r.close()

三、文件操作模式

r: 读
w: 写(无创建,有清空)
a: 追加(有创建的功能)

t: 文本操作(默认模式) r=>rt w=>wt a=>at
b: 非文本文件必须采用二进制模式来处理
+: 可读可写
r+: 不会创建文件的可读可写 | w+:创建清空文件的可读可写 | a+:创建不清空文件(追加)的可读可写

x:写模式创建文件,如果文件已存在就抛出异常

with open('1.txt', 'wt', encoding='utf-8') as f:
f.write('666')

借助读写,完成追加
with open('1.txt', 'rt', encoding='utf-8') as f1:
data = f1.read()
data += '666'
with open('1.txt', 'wt', encoding='utf-8') as f2:
f2.write(data)

a为写模式,在原数据后追加写入新数据
with open('1.txt', 'a', encoding='utf-8') as f:
f.write('777')

四、非文本文件复制

with open('333.mp4', 'rb') as f1:
with open('666.mp4', 'wb+') as f2:
for line in f1:
f2.write(line)

x:写模式,创建文件,如果文件以存在,就抛异常
with open('000.txt', 'x', encoding='utf-8') as f:
pass

五、文件游标操作

方法:seek(偏移量, 偏移位置)
偏移量:移动的字节数,负数是结合模式1,2往前偏移
偏移位置:
-- 0 - 从文件开始位置开始偏移 | 1 - 从当前游标位置开始偏移 | 2 - 从文件末尾开始偏移
b'你好1234567890'

游标读
with open('source.txt', 'rb') as f:
d1 = f.read(11)
print(d1)
print(d1.decode('utf-8'))

当前游标的位置
print(f.tell())

游标操作 - 从末尾位置开始
f.seek(-3, 2)
d2 = f.read()
print(d2.decode('utf-8')) # 890

游标操作 - 从当前位置开始
f.seek(-3, 1)
d2 = f.read()
print(d2.decode('utf-8')) # 34567890

游标操作 - 从头开始
f.seek(3, 0)
d2 = f.read()
print(d2)
print(d2.decode('utf-8')) # 好1234567890

游标写:会覆盖书写
with open('source.txt', 'rb+') as f:
f.seek(11)
print(f.read())
f.write(b'000')

猜你喜欢

转载自www.cnblogs.com/yangyinyin/p/10632300.html