《机器学习Python实践》第5章——数据导入

  • 通过标准的Python库导入CSV文件
  • 通过NumPy导入CSV文件
  • 通过Pandas导入CSV文件

1) CSV 文件

CSV文件使用逗号(,)分隔的文本文件。
在审查CSV文件时,需要注意以下几个方面:
文件头、文件中的注释、分隔符、引号。

(1)通过标准的Python库导入CSV文件

python 提供了一个标准类库CSV,用来处理CSV文件。
这个类库中的reader()函数用来读入CSV文件。当CSV文件被读入后,可以利用这些数据生成一个Numpy数组,用来训练算法模型。

from csv import reader
import numpy as np
filename='pima_data.csv'      #这个文件中国所有数据都是数字,并且数据中不包含文件头。
with open(filename,'rt') as raw_data:
    readers = reader(raw_data, delimiter=',')
    x=list(readers)
    data=np.array(x).astype('float')
    print(data.shape)

(2)采用Numpy 导入CSV文件

可以使用Munpy的loadtxt()函数导入数据。使用这个函数处理的数据没有文件头,并且所有的数据结构都是一样的,也就是说,数据类型都是一样的。

import numpy as np
filename='pima_data.csv'
with open(filename,'rt') as raw_data:
    data=loadtxt(raw_data,delimiter=',')
    print(data.shape)

(3)采用Pandas 导入CSV文件——机器学习项目中常用来做数据清洗与数据准备工作。推荐使用。

使用Pandas来导入文件需要使用pandas.read_csv()函数。这个函数的返回值是DataFrame,可以很方便地进行下一步的处理。

from pandas import read_csv
filename='iris.data.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
print(dataset.shape)

猜你喜欢

转载自blog.csdn.net/zhenaoxi1077/article/details/80568190