Python 科学计算学习一:NumPy-快速处理数据(2)

2.1 ufunc运算

ufunc (universal function)函数是一种能对数组的每个元素进行操作的函数。NumPy 中有众多的 ufunc 函数为我们提供各式各样的计算。例如 sin 函数、add 函数等。
为了有效率地使用math库和numpy库中的数学函数。在导入时不建议使用*号全部载入,而是应该使用import numpy as np的方式载入,这样我 们可以根据需要选择合适的函数调用。
下面是一个 ufunc 函数例子

import numpy as np
import matplotlib.pyplot as plt
x=np.linspace(0,4*np.pi,100)
plt.plot(x,np.sin(x))

这里写图片描述
先用linspace产生一个从0到4*PI的等距离的100个数,然后将其传递给sin函数,其中np.sin就是是一个 ufunc 函数。

2.1.1 广播

当我们使用 ufunc 函数对两个数组进行计算时,ufunc 函数会对这两个数组的对应元素进行计算,因 此它要求这两个数组有相同的大小(shape相同)。如果两个数组的shape不同的话,会进行如下的广播 (broadcasting)处理:

  1. 让所有输入数组都向其中shape最长的数组看齐,shape中不足的部分都通过在前面加1补齐
  2. 输出数组的shape是输入数组shape的各个轴上的最大值
  3. 如果输入数组的某个轴和输出数组的对应轴的长度相同或者其长度为1时,这个数组能够用来计 算,否则出错
  4. 当输入数组的某个轴的长度为1时,沿着此轴运算时都用此轴上的第一组值
    下面是一个例子:
>>> a = np.arange(0, 60, 10).reshape(-1, 1) 
>>> a 
array([[ 0], [10], [20], [30], [40], [50]]) 
>>> a.shape 
(6, 1)
>>> b = np.arange(0, 5) 
>>> b 
array([0, 1, 2, 3, 4]) 
>>> b.shape 
(5,)
>>> c = a + b 
>>> c 
array([[ 0, 1, 2, 3, 4], [10, 11, 12, 13, 14], [20, 21, 22, 23, 24], [30, 31, 32, 33, 34],[40, 41, 42, 43, 44], [50, 51, 52, 53, 54]]) 
>>> #计算a和b的和,得到一个加法表,它相当于计算a,b中所有元素组的和,得到一个shape为(6,5)的数组
>>> c.shape 
(6, 5)

2.1.2 ogrid对象

numpy提供了一个快速产生两个数组的方法: ogrid对象:

>>> x,y = np.ogrid[0:5,0:5] 
>>> x 
array([[0], [1], [2], [3], [4]])#五行一列 
>>> y 
array([[0, 1, 2, 3, 4]])#一行五列

2.1.3 reduce 方法

reduce 方法和Python的reduce函数类似,它沿着axis轴对array进行操作,相当于将运算符插 入到沿axis轴的所有子数组或者元素当中。

<op>.reduce (array=, axis=0, dtype=None)

例如:

>>> np.add.reduce([1,2,3]) # 1 + 2 + 3 
6 
>>> np.add.reduce([[1,2,3],[4,5,6]], axis=1) # 1,4 + 2,5 + 3,6 
array([ 6, 15])

2.1.4 accumulate 方法

accumulate 方法和reduce方法类似,只是它返回的数组和输入的数组的shape相同,保存所有的中间 计算结果:

>>> np.add.accumulate([1,2,3]) 
array([1, 3, 6]) 
>>> np.add.accumulate([[1,2,3],[4,5,6]], axis=1)
array([[ 1, 3, 6], [ 4, 9, 15]])

2.1.5 outer 方法

outer 方法,.outer(a,b)方法的计算等同于如下程序:

>>> a.shape += (1,)*b.ndim 
>>> <op>(a,b) 
>>> a = a.squeeze()#squeeze的功能是剔除数组a中长度为1的轴

2.2 矩阵运算

2.2.1 matrix对象

numpy库提供了matrix类,使用matrix类创建的是矩阵对象,它们的加减乘除运算缺省采用矩阵方式计算。例如:
这里写图片描述

2.2.2 矩阵的乘积

矩阵的乘积可以使用dot、inner、outer等多种函数进行计算。
dot函数
对于两个一维的数组,计算的是这两个数组对应下标元素的乘积和(数学上称之为内积);对于二维数组,计算的是两个数组的矩阵乘积;对于多维数组,它的通用计算公式如下,即结果数 组中的每个元素都是:数组a的最后一维上的所有元素与数组b的倒数第二位上的所有元素的乘积和:

dot(a, b)[i,j,k,m] = sum(a[i,j,:] * b[k,:,m])

下面以两个3为数组的乘积演示一下dot乘积的计算结果:
首先创建两个3维数组,这两个数组的最后两维满足矩阵乘积的条件:

>>> a = np.arange(12).reshape(2,3,2) 
>>> b = np.arange(12,24).reshape(2,2,3) 
>>> c = np.dot(a,b)

dot乘积的结果c可以看作是数组a,b的多个子矩阵的乘积:

>>> np.alltrue( c[0,:,0,:] == np.dot(a[0],b[0]) ) 
True 
>>> np.alltrue( c[1,:,0,:] == np.dot(a[1],b[0]) ) 
True 
>>> np.alltrue( c[0,:,1,:] == np.dot(a[0],b[1]) ) 
True 
>>> np.alltrue( c[1,:,1,:] == np.dot(a[1],b[1]) ) 
True

inner 函数
和dot乘积一样,对于两个一维数组,计算的是这两个数组对应下标元素的乘积和;对于 多维数组,它计算的结果数组中的每个元素都是:数组a和b的最后一维的内积,因此数组a和b 的最后一维的长度必须相同。
outer 函数
只按照一维数组进行计算,如果传入参数是多维数组,则先将此数组展平为一维数组之 后再进行运算。

2.3 文件存取

NumPy提供了多种文件操作函数方便我们存取数组内容。文件存取的格式分为两类:二进制和文本。而二进制格式的文件又分为NumPy专用的格式化二进制类型和无格式类型。
tofile函数、fromfile函数
使用数组的方法函数tofile可以方便地将数组中数据以二进制的格式写进文件。tofile输出的数据没有格式,因此用numpy.fromfile读回来的时候需要自己格式化数据。

>>> a = np.arange(0,12)
>>> a.shape = 3,4
>>> a
array([[ 0, 1, 2, 3],
      [ 4, 5, 6, 7],
      [ 8, 9, 10, 11]])
>>> a.tofile("a.bin")
>>> b = np.fromfile("a.bin", dtype=np.int32) # 按照int32类型读入数据
>>> b.shape = 3, 4 # 按照a的shape修改b的shape
>>> b
array([[ 0, 1, 2, 3],
       [ 4, 5, 6, 7],
       [ 8, 9, 10, 11]])

注意:在读入的时候设置正确的dtype和shape才能保证数据一致。
load函数、save函数
numpy.load和numpy.save函数以NumPy专用的二进制类型保存数据,这两个函数会自动处理元素类 型和shape等信息。

>>> np.save("a.npy", a)
>>> c = np.load( "a.npy" )
>>> c
array([[ 0, 1, 2, 3],
       [ 4, 5, 6, 7],
       [ 8, 9, 10, 11]])

如果你想将多个数组保存到一个文件中的话,可以使用numpy.savez函数。savez函数的第一个参数是 文件名,其后的参数都是需要保存的数组,也可以使用关键字参数为数组起一个名字,非关键字参数 传递的数组会自动起名为arr_0, arr_1, …。savez函数输出的是一个压缩文件(扩展名为npz),其中每个 文件都是一个save函数保存的npy文件,文件名对应于数组名。load函数自动识别npz文件,并且返回 一个类似于字典的对象,可以通过数组名作为关键字获取数组的内容:

>>> a = np.array([[1,2,3],[4,5,6]])
>>> b = np.arange(0, 1.0, 0.1)
>>> c = np.sin(b)
>>> np.savez("result.npz", a, b, sin_array = c)
>>> r = np.load("result.npz")
>>> r["arr_0"] # 数组a
array([[1, 2, 3],
       [4, 5, 6]])
>>> r["arr_1"] # 数组b
array([ 0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])
>>> r["sin_array"] # 数组c
array([ 0. , 0.09983342, 0.19866933, 0.29552021, 0.38941834,
0.47942554, 0.56464247, 0.64421769, 0.71735609, 0.78332691])

猜你喜欢

转载自blog.csdn.net/Yangchenju/article/details/81263341