Python数据清洗

概述

Numpy 清理工具

Numpy常用数据结构
Numpy常用数据清理函数

Python数据清洗

概述

数据清洗实质上是指将实际业务问题中，脏数据清洗干净，转换为 ‘干净的数据’，所谓的脏，指数据可能存在以下几种问题（主要问题）：
- 数据缺失 (Incomplete): 是属性值为空的情况。如 Occupan = " "
- 数据噪声 (Noisy): 是数据值不合常理的情况。如 Salary = “-100”
- 数据不一致 (Inconsistent): 是数据前后存在矛盾的情况。如 Age = “042” 或者 Birthday = “01/09/1985”
- 数据冗余 (Redundant): 是数据量或者属性数目超出数据分析需要的情况
- 离群点/异常值 (Outliers): 是偏离大部分值的数据
- 数据重复: 是在数据集中出现多次的数据

Numpy 清理工具

Numpy常用数据结构

Numpy中常用的数据结构是ndarray格式
使用array函数创建，语法格式为array(列表或元组)
可以使用其他函数例如arange、linspace、zeros等创建

import numpy as np

arr1 = np.array([-9, 7, 4, 3])

arr1

array([-9,  7,  4,  3])

type(arr1)  # n维数组

numpy.ndarray

arr1 = np.array([-9, 7, 4, 3], dtype='str')

arr1

array(['-9', '7', '4', '3'], dtype='<U2')

arr1 = np.array([-9, 7, 4, 3], dtype=float)

arr1

array([-9.,  7.,  4.,  3.])

arr1 = np.array([-9, 7, 4, 3], dtype=int)

arr1

array([-9,  7,  4,  3])

arr2 = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])

arr2

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

for i in range(1, 10):
    print(i)

np.arange(1, 10, 0.5)

array([1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5, 7. ,
       7.5, 8. , 8.5, 9. , 9.5])

# 等差数组
# 第一个参数：起始值
# 第二个参数：终止值
# 第三个参数：元素个数
# endpoint：是否包含终值
np.linspace(1, 10, 10, endpoint=True)

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

np.linspace(1, 10, 20, endpoint=True)

array([ 1.        ,  1.47368421,  1.94736842,  2.42105263,  2.89473684,
        3.36842105,  3.84210526,  4.31578947,  4.78947368,  5.26315789,
        5.73684211,  6.21052632,  6.68421053,  7.15789474,  7.63157895,
        8.10526316,  8.57894737,  9.05263158,  9.52631579, 10.        ])

9/19  # 步长

0.47368421052631576

1 + 3 * (9/19)

2.4210526315789473

# 产生一个4行5列的数组，值为0
np.zeros([4, 5])

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

np.zeros(4)

array([0., 0., 0., 0.])

# 产生一个2行3列的数组，值为1
np.ones([2, 3])

array([[1., 1., 1.],
       [1., 1., 1.]])

# 对每一个数组元素加1
arr2 + 1

array([[ 2,  3,  4,  5],
       [ 6,  7,  8,  9],
       [10, 11, 12, 13]])

# 判断数组的维数
arr1.ndim

arr2.ndim

# 判断数组的形状
arr1.shape

(4,)

arr2.shape

(3, 4)

# 返回数组元素个数
arr2.size

# 返回数组元素类型
arr2.dtype

dtype('int32')

data2 = ((8.5, 6, 4, 1.2, 0.7), (1.5, 3, 5.4, 7.3, 9), (3.2, 4.5, 6, 3, 9), (11.2, 13.4, 15.6, 17.8, 19))

arr3 = np.array(data2)

arr3

array([[ 8.5,  6. ,  4. ,  1.2,  0.7],
       [ 1.5,  3. ,  5.4,  7.3,  9. ],
       [ 3.2,  4.5,  6. ,  3. ,  9. ],
       [11.2, 13.4, 15.6, 17.8, 19. ]])

arr3[0]

array([8.5, 6. , 4. , 1.2, 0.7])

arr3[3]

array([11.2, 13.4, 15.6, 17.8, 19. ])

# 取第二行第三列元素
arr3[1, 2]

5.4

arr3[1][2]

5.4

arr3[:, 3]

array([ 1.2,  7.3,  3. , 17.8])

# 取第二列到第三列元素
arr3[:, 1:3]

array([[ 6. ,  4. ],
       [ 3. ,  5.4],
       [ 4.5,  6. ],
       [13.4, 15.6]])

arr3[3][1]

13.4

$\color{red}数组下标从0开始，且左闭右开$

Numpy常用数据清理函数

import numpy as np

s = np.array([1,2,3,4,3,2,1,2,2,4,6,7,2,4,8,4,5])

s = np.sort(s)

array([1, 1, 2, 2, 2, 2, 2, 3, 3, 4, 4, 4, 4, 5, 6, 7, 8])

np.array(sorted(s, reverse=True))

array([8, 7, 6, 5, 4, 4, 4, 4, 3, 3, 2, 2, 2, 2, 2, 1, 1])

# 返回排序的索引
np.argsort(s)

array([ 0,  6, 12,  7,  5,  8,  1,  2,  4,  3, 15,  9, 13, 16, 10, 11, 14],
      dtype=int64)

arr1 = np.array([[0,1,3],[4,2,9],[4,5,9],[1,-3,4]])

# axis=0：表示对列排序
# axis=1：表示对行排序
np.sort(arr1, axis=0)

array([[ 0, -3,  3],
       [ 1,  1,  4],
       [ 4,  2,  9],
       [ 4,  5,  9]])

np.sort(arr1, axis=1)

array([[ 0,  1,  3],
       [ 2,  4,  9],
       [ 4,  5,  9],
       [-3,  1,  4]])

array([1, 2, 3, 4, 3, 2, 1, 2, 2, 4, 6, 7, 2, 4, 8, 4, 5])

# 第一个参数：条件
# 第二个参数：条件满足的返回值
# 第三个参数：条件不满足的返回值
# 大于3返回元素本身，不大于3返回-1
np.where(s>3, s, -1)

array([-1, -1, -1,  4, -1, -1, -1, -1, -1,  4,  6,  7, -1,  4,  8,  4,  5])

# 第一个参数：条件
# 第二个参数：返回的值
# 筛选数组中值大于3的元素
np.extract(s > 3, s)

array([4, 4, 6, 7, 4, 8, 4, 5])

若尘

发布了248 篇原创文章 · 获赞 293 · 访问量 4万+

私信关注

Numpy 常用数据结构和清理函数

Python数据清洗

概述

Numpy 清理工具

Numpy常用数据结构

Numpy常用数据清理函数

猜你喜欢