python基础之 文件读写操作

一、文件打开方式,有三种常用的打开方法:r , w, a。

r :读;w:写;a:追加(基本不用)
 

二、文件读写

# 打开指定目录下的文件
corpus_path = "corpus/"  # 语料库路径
filelist = os.listdir(corpus_path)  # 获取corpus_path下的所有文件
for file_path in filelist:  # 遍历类别目录下文件
    fullname = corpus_path + file_path  # 拼出文件名全路径
    content = readfile(fullname).strip()  # 读取文件内容
# 向文件写入数据
fw = open('./tfidfFile/tfidf.txt', 'a', encoding='utf-8')
for k in document_word_tfidf:
    k.encode('utf-8')
    fw.write(k + ' ' + str(document_word_tfidf[k]))
    fw.write('\n')
fw.close()    

三、数据序列化工具:

1.pickle

#使用pickle模块将数据对象保存到文件
import pickle
output = open('data.pkl', 'wb')
pickle.dump(data1, output)
output.close()
#使用pickle模块从文件中重构python对象
pkl_file = open('data.pkl', 'rb')
data1 = pickle.load(pkl_file)
pkl_file.close()

2. sklearn 自带模型保存工具

from sklearn.externals import joblib
joblib.dump(vec,'mytfidf.pkl')
vec = joblib.load('mytfidf.pkl')

3  sparse 保存稀疏矩阵

from scipy import sparse
sparse.save_npz('./tfidf.npz', train_tfidf)  #保存
tfidf = sparse.load_npz('tfidf.npz')  # 读

四、文件的相对路径和绝对路径

“/”:表示根目录,在windows系统下表示某个盘的根目录,如“E:\”;

“./”:表示当前目录;(表示当前目录时,也可以去掉“./”,直接写文件名或者下级目录)

“../”:表示上级目录。

五、to_csv

猜你喜欢

转载自blog.csdn.net/qq_34333481/article/details/84337961
今日推荐