python的numpy库的布尔型索引与花式索引

当我第一次用python来处理数据的时候,深深被它的强大所折服,虽然我是才开始接触数据分析领域并且没有接触到其他的数据分析工具,我依然觉得python的numpy以及pandas库非常的强大,在看书时看到了对于numpy的一些分析觉得说的很好,于是就给大家分享一下.

以下内容来自于<<利用python进行数据分析>>


布尔型索引:

这个例子讲的非常好容易弄懂

首先我们假设有一个用于储存数据的数组以及一个储存姓名的数组(含有重复项)

>>>import numpy as np
>>>from numpy.random import randn #用来生成一些正太分布的随机数据
>>>names=np.array(['Bob','Joe','Jhon','Will','Bob','Joe','Joe']) #储存姓名的数组
>>>data=randn(7,4)  #生成含随机值的数组
>>>data
array([[ 0.74909714, -2.10128795, -0.83747237,  0.35225215],
       [ 1.87529168, -1.10946713, -0.36132735,  0.51756533],
       [-1.07328408, -0.39283394,  1.51971707,  1.24277169],
       [ 1.18592274,  0.47447424,  0.70105411,  1.25434149],
       [ 1.55373886,  1.72688526, -0.88409627, -0.35765526],
       [ 0.96592355,  1.08549856, -0.45727787, -0.54652419],
       [-1.07025302, -0.44310239, -0.33110489, -0.01426706]])



假设每个名字都对应data数组中的一行,而我们想要选出对应于名字"Joe"的所有行.跟算数运算一样,数组的比较运算符(如==)也是矢量化的.因此,对names和字符串"Joe"的比较运算将会产生一个布尔型的数组:

names == 'Joe'
array([False,  True, False, False, False,  True,  True], dtype=bool) #产生的布尔型的数组

这个布尔型数组可以用于数组索引:

>>>data[names == 'Joe']
array([[ 1.87529168, -1.10946713, -0.36132735,  0.51756533],
       [ 0.96592355,  1.08549856, -0.45727787, -0.54652419],
       [-1.07025302, -0.44310239, -0.33110489, -0.01426706]])

布尔型数组长度必须跟被索引的轴长度一致.

要选择除"Joe"以外的其他值,既可以使用不等于符号(!=),也可以通过符号(-)对条件进行否定:

>>> names!="Joe"
array([ True, False,  True,  True,  True, False, False], dtype=bool)
>>> data[-(names=="Joe")]
array([[ 0.74909714, -2.10128795, -0.83747237,  0.35225215],
       [-1.07328408, -0.39283394,  1.51971707,  1.24277169],
       [ 1.18592274,  0.47447424,  0.70105411,  1.25434149],
       [ 1.55373886,  1.72688526, -0.88409627, -0.35765526]])

选取这些名字中的两个需要组合应用多个布尔条件,使用&(和),|(或)之类的布尔算数运算符即可:

>>> mask=(names=="Joe")|(names=="Bob")
>>> mask
array([ True,  True, False, False,  True,  True,  True], dtype=bool)
>>> data[mask]
array([[ 0.74909714, -2.10128795, -0.83747237,  0.35225215],
       [ 1.87529168, -1.10946713, -0.36132735,  0.51756533],
       [ 1.55373886,  1.72688526, -0.88409627, -0.35765526],
       [ 0.96592355,  1.08549856, -0.45727787, -0.54652419],
       [-1.07025302, -0.44310239, -0.33110489, -0.01426706]])

警告:python的关键字and和or在布尔型数组中无效

花式索引:

花式索引是一个numpy术语,它是指利用整数数组进行索引

假设我们有一个8x4数组:

>>> arr=np.empty((8,4))  #empty函数是用来创建一个没有任何具体值的数组的方法,返回的都是垃圾值
>>> for i in range(8):
...     arr[i] = i   #这个函数是为了把数组arr的内容变得有序切易懂
... 
>>> arr
array([[ 0.,  0.,  0.,  0.],
       [ 1.,  1.,  1.,  1.],
       [ 2.,  2.,  2.,  2.],
       [ 3.,  3.,  3.,  3.],
       [ 4.,  4.,  4.,  4.],
       [ 5.,  5.,  5.,  5.],
       [ 6.,  6.,  6.,  6.],
       [ 7.,  7.,  7.,  7.]])

当我们想以特定的顺序来选取子集的时候,只需传入一个用于指定顺序的整数列表或ndarray即可:

>>> arr[[4,3,0,6]]     #以第5,4,0,7行的顺序选取子集,从0开始计数
array([[ 4.,  4.,  4.,  4.],
       [ 3.,  3.,  3.,  3.],
       [ 0.,  0.,  0.,  0.],
       [ 6.,  6.,  6.,  6.]])

用负数索引将会从末尾开始选取行:

>>> arr[[-3,-5,-7]] #以倒数第3,5,7行顺序选取子集,负数是从-1开始计数
array([[ 5.,  5.,  5.,  5.],
       [ 3.,  3.,  3.,  3.],
       [ 1.,  1.,  1.,  1.]])

一次传入多个索引数组会有一点特别,会返回一个一维数组:

>>> arr=np.arange(32).reshape((8,4)) # reshape意思是arr是一个八行四列的二维数组
>>> arr
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])
>>> arr[[1,5,7,2],[0,3,1,2]]
array([ 4, 23, 29, 10])

最终选取出来的的是元素(1,0).(5,3).(7,1).(2,2)所对应的元素.

记住:花式索引跟切片不一样,它总是将数据复制到新数组中






猜你喜欢

转载自blog.csdn.net/xsl15181685808/article/details/79734872