python数据清洗之学习总结--目录

其他 2020-03-23 23:33:46 阅读次数: 0

python数据清洗之学习总结--目录

引言
一、数据预处理之常用工具
二、数据清洗之文件读写
三、数据清洗之数据表处理
四、数据清洗之数据转换
五、数据清洗之数据统计
六、数据清洗之数据预处理
总结

函数大全：

引言

数据清洗实质上是将实际业务问题中，脏数据清洗干净,转换为’干净的数据’, 所谓的脏，指数据可能存在以下几种问题（主要问题）:

数据缺失（Incomplete） 是属性值为空的情况。如 Occupancy = “ ”

数据噪声 (Noisy) 是数据值不合常理的情况。如 Salary = “-100”

数据不一致（Inconsistent） 是数据前后存在矛盾的情况。如 Age = “042” 或者 Birthday = “01/09/1985”

数据冗余（Redundant） 是数据量或者属性数目超出数据分析需要的情况

离群点/异常值（Outliers） 是偏离大部分值的数据数据重复是在数据集中出现多次的数据

一、数据预处理之常用工具

Numpy
1.1 常用数据结构
1.2 常用方法
1.3 数据访问方法
1.4 Numpy常用清洗函数
Pandas
2.1 series和方法
2.2 dataframe和方法

二、数据清洗之文件读写

csv文件读写
excel文件读写
数据库文件读写
3.1 查询数据库
3.2 写入数据库

三、数据清洗之数据表处理

数据常用筛选方法
在数据中,直接添加列
数据的修改和查找
数据整理
4.1 pd.concat
4.2 pd.merge
层次化索引

四、数据清洗之数据转换

日期格式数据处理
高阶函数数据处理
字符串数据处理

五、数据清洗之数据统计

数据分组运算
聚合函数使用
分组对象与apply函数
透视图与交叉表
透视图
交叉表用于计算分组频率

六、数据清洗之数据预处理

重复值处理
缺失值处理
异常值处理
数据离散化

总结

步骤：

数据获取，使用read_csv或者read_excel
数据探索，使用shape,describe或者info函数
行列操作，使用loc或者Iloc函数
数据整合，对不同数据源（数据表）的数据进行整理
数据类型转换，数值型。日期型。字符串互相转换
分组汇总，对数据进行各个维度计算
处理重复值、缺失值、异常值，数据离散化

函数大全：

merge,cancat函数用于数据整合
pd.to_datetime 日期格式转换
str函数用于字符串操作
astype函数用于数据类型转换
apply和map函数用于高级的数据处理
groupby用于创建分组对象
透视表pd.pivot_table和交叉表pd.crosstab
分组对象和agg结合使用，统计需要信息

w.ang.jie

发布了94 篇原创文章 · 获赞 24 · 访问量 4万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_32392597/article/details/105039357

python数据清洗之学习总结--目录

python数据清洗之学习总结（六、数据清洗之数据预处理)

python数据清洗之学习总结（四、数据清洗之数据转换)

python数据清洗之学习总结（三、数据清洗之数据表处理)

python数据清洗之学习总结（五、数据清洗之数据统计)

python数据清洗之学习总结（二、数据清洗之文件读写)

python数据清洗之学习总结（一、数据预处理之常用工具）

python总结之学习笔记

python学习-数据清洗

学习笔记(36):Python数据清洗实战-课程总结

Java之学习目录

python数据清洗学习笔记--数据转换

python之学习历程

python之学习记录

#####Python之学习（四）####

Python学习 | 数据清洗和准备

Python学习（笔记4-数据清洗）

python数据清洗学习笔记--文件读写

Python数据清洗学习笔记--概述

Python数据分析学习笔记1之学习路线

数据清洗总结：

总结：数据清洗步骤

python学习总结：目录

Eventbus源码之学习总结

Python数据清洗 | 常用的数据清洗方法

【Python数据分析学习笔记-7】数据清洗与整理-数据清洗

python数据清洗（总结版）-思维导图

【Python】Pandas 数据清洗操作，常用函数总结

python之清洗数据

Python-数据清洗

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)