Python学习 | 数据清洗和准备 - 代码天地

Python学习 | 数据清洗和准备

其他 2019-07-05 20:59:30 阅读次数: 0

1 处理缺失数据

在pandas中，采用了R语言中的惯用法，即将缺失值表示为NA，它表示不可用not available；使用浮点值NaN（Not a Number）表示缺失数据。
1.1滤除缺失数据

1）dropna方法

drona方法会丢弃任何含有缺失值的行，如果想丢弃全NA的行或列，传入how='all'参数。

传入thresh参数，来滤出含有n个NaN的行或者列

2）pandas.notnull、布尔索引

1.2填充缺失数据
fillna方法

注：method有两种方式，ffill是后面的缺失值填充前面出现的数值，bfill是前面的缺失值，填充后面出现的数值

2 数据转换

2.1移除重复数据

duplicated方法返回一个布尔型Series，判断是否有重复项

drop_duplicates方法删除重复行
以上两个方法默认会判断全部列，可以指定部分列进行重复项判断，默认保留的是第一个出现的值组合，传入keep='last'则
保留最后一个。

2.2利用函数或映射进行数据转换
Series的map方法可以接受一个函数或含有映射关系的字典型对象，str.lower方法，将各个值转换为小写

也可以传入一个能够完成全部这些工作的函数：

2.3替换值

replace方法

也可以一次性替换多个值：

传入的参数也可以是字典：

2.4重命名轴索引
先定义一个函数，可以将其赋值给index，这样就可以对DataFrame进行就地修改

如果是创建data的副本，而不是修改原始数据，则使用rename

ename可以结合字典型对象实现对部分轴标签的更新：

2.5离散化和面元划分
连续数据常常被离散化或拆分为“面元”（bin）

2.6检测和过滤异常值
找出某列中绝对值大小超过3的值：

根据这些条件，就可以对值进行设置。下面的代码可以将值限制在区间－3到3以内：

注：np.sign(data)可以生成1和-1

2.7排列和随机采样

利用numpy.random.permutation函数可以轻松实现对Series或DataFrame的列的排列工作（permuting，随机重排序）

随机选择子集并不替换原来数据，可在Series和DataFrame上使用sample方法

2.8计算指标/哑变量

另一种常用于统计建模或机器学习的转换方式是：将分类变量（categorical variable）转换为“哑变量”或“指标矩阵.
如果DataFrame的某一列中含有k个不同的值，则可以派生出一个k列矩阵或DataFrame（其值全为1和0）,pandas有一个get_dummies函数可以实现该功能

3 字符串操作

以逗号分隔的字符串可以用split拆分成数段:

split常常与strip一起使用，以去除空白符（包括换行符):

向字符串"::"的join方法传入一个列表或元组，可以将子字符串以双冒号分隔符的形式连接起来

3.1正则表达式

正则表达式常称作regex, 提供了一种灵活的在文本中搜索或匹配（通常比前者复杂）字符串模式的方式，Python内置的re模块负责对字符串应用正则表达式
拆分一个字符串，分隔符为数量不定的一组空白符\制表符、空格、换行符等:

如果对许多字符串使用同一条正则表达式，可以用re.compile创建regex对象。这样将可以节省大量的CPU时间。

3.2 pandas的矢量化字符串函数

猜你喜欢

转载自blog.csdn.net/LivLu24/article/details/94431912

Python学习 | 数据清洗和准备

Python之数据清洗与准备

python学习笔记4_数据清洗与准备

利用Python进行数据分析第7章数据清洗和准备

利用Python进行数据分析第7章数据清洗和准备（2）

python大数据的数据清洗和准备（对缺失值的处理，对重复数据的处理，对异常值的处理，数据转换）

数据基础---《利用Python进行数据分析·第2版》第7章数据清洗和准备

利用Python进行数据分析——数据清洗与准备

python学习-数据清洗

《利用Python进行数据分析·第2版》第7章数据清洗和准备

《利用python进行数据分析.第三版》第七章数据清洗和准备

数据清洗和准备2

数据清洗和准备1

机器学习——数据清洗和特征选择

机器学习数据的采集和清洗

数据分析——数据清洗和准备

利用python进行数据分析—8.数据清洗与准备

Python数据清洗：Python和Pandas数据清洗的实用教程

python数据清洗学习笔记--数据转换

Python数据清洗，类型转换和冗余数据删除

Python学习（笔记4-数据清洗）

python数据清洗之学习总结--目录

python数据清洗学习笔记--文件读写

Python数据清洗学习笔记--概述

学习笔记(04):Python数据清洗实战-数据修改和查找

学习笔记(22):Python数据清洗实战-数据修改和查找

学习笔记(21):Python数据清洗实战-数据增加和删除

学习笔记(16):Python数据清洗实战-Pandas常用数据结构dataframe和方法

学习笔记(38):Python数据清洗实战-Pandas常用数据结构dataframe和方法

学习笔记(37):Python数据清洗实战-Pandas常用数据结构series和方法

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)