python实现三种数据预处理

主要对数据进行了三种预处理:

1.  区间缩放

读取数据、数据处理、存储数据

import pandas as pd

import numpy as np

from sklearn import preprocessing

import matplotlib.pyplot as plt

 

plt.rcParams['font.sans-serif'] =['SimHei'] #用来正常显示中文标签 

plt.rcParams['axes.unicode_minus'] =False #用来正常显示负号

 

Filename = 'Hits perSecond_T20m_130.csv'

data_f = pd.read_csv(Filename)#二维dataframe格式

#print(data_f)

plt.plot(data_f[200:600])

plt.title('数据预处理前')

plt.show()

 

print('***2.数据归一化,映射到区间[min,max]:')

min_max_scaler =preprocessing.MinMaxScaler(feature_range=(0,10))

data_mi_ma =min_max_scaler.fit_transform(data_f)

plt.plot(data_mi_ma[200:600])

plt.title('数据预处理后')

plt.show()

 

print(type(data_mi_ma))

data_ = pd.DataFrame(data_mi_ma)

print(type(data_))

data_.to_csv("afterpre.csv",index=0,header=0)#index=0,不保留索引列,header=0不保留列名

注:将处理完的数据重新保存为CSV文件时,需要先将数据转化为dataframe格式

2.  标准化

importpandas as pd

importnumpy as np

fromsklearn import preprocessing

importmatplotlib.pyplot as plt

 

plt.rcParams['font.sans-serif']= ['SimHei'] #用来正常显示中文标签 

plt.rcParams['axes.unicode_minus']= False #用来正常显示负号

 

Filename= 'Hits per Second_T20m_130.csv'

data_f =pd.read_csv(Filename)#二维dataframe格式

#print(data_f)

plt.plot(data_f[200:600])

plt.title('数据处理前')

plt.show()

data_sta= preprocessing.scale(data_f)

#print(data_nor)

plt.plot(data_sta[200:600])

plt.title('数据处理后')

plt.show()

 

print(type(data_sta))

data_ =pd.DataFrame(data_mi_ma)

print(type(data_))

data_.to_csv("afterpre.csv",index=0,header=0)#index=0,不保留索引列,header=0不保留列名

3.  对数

importpandas as pd

importnumpy as np

importmatplotlib.pyplot as plt

 

plt.rcParams['font.sans-serif']= ['SimHei'] #用来正常显示中文标签 

plt.rcParams['axes.unicode_minus']= False #用来正常显示负号

 

Filename= 'Hits per Second_T20m_130.csv'

data_f =pd.read_csv(Filename)#二维dataframe格式

#print(data_f)

plt.plot(data_f[200:600])

plt.title('数据预处理前')

plt.show()

 

data_log= np.log(data_f)

plt.plot(data_log[200:600])

plt.title('数据预处理前')

plt.show()

 

data_log.to_csv("afterpre.csv",index=0,header=0)#index=0,不保留索引列,header=0不保留列名

猜你喜欢

转载自blog.csdn.net/weixin_38339143/article/details/80005493
今日推荐