【数据分析 - 基础入门之pandas篇①】- pandas介绍

前言

一、pandas介绍

pandas 是 Python 的 核心数据分析支持库 ,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。

pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力,pandas 离这个目标已经越来越近了。

对于使用 Python 进行数据分析来说,pandas 几乎是无人不知,无人不晓的。通俗来讲,pandas 是 Python 编程界的 Excel

pandas官方网站 点我,没有 VPN 访问较慢。

pandas中文网 点我,可以正常访问,较为人性化。

二、pandas优势

为什么 pandas 能成为 Python 数据分析的利器和核心支持库?我想大概可以从以下几点中找到答案。

2.1 强大的数据结构支撑

pandas的主要数据结构是 Series(一维数据)与DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型的用例。

对于 R 用户,DataFrame提供了比R语言 data.frame 更丰富的功能。pandas是基于NumPy开发,可以与其它第三方科学计算支持库完美集成。

2.2 优点

  • 1.处理浮点与非浮点数据里的缺失数据,表示为NaN

  • 2.大小可变

插入或删除DataFrame等多维对象的列;

  • 3.自动、显示数据对齐

显示将对象与一组标签对齐,也可以忽略标签,在Series、DataFrame计算时自动与数据对齐;

  • 4.强大、灵活的分组(group by)功能

拆分-应用-组合数据集,聚合、转换数据;
把Python和NumPy数据结构里不规则、不同索引的数据轻松地转换为DataFrame对象;

  • 5.基于智能标签,对大型数据集进行切片、花式索引、子集分解等操作;

  • 6.轴支持结构化标签:一个刻度支持多个标签;

  • 7.成熟的IO工具

读取文本文件(CSV等支持分隔符地文件)、Excel文件、数据库等来源地数据,利用超快地HDF5格式保存/加载数据;

  • 8.时间序列

支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。

三、pandas学习路线

首先是 Series:

之后是 DataFrame :


结语

pandas 的学习注定会遇到很多困难,这让我想起了当初学习 Java 框架 Spring 的时候,感觉都看不下去了,乏味无趣,后面慢慢的发现,边学习边实践,拒绝拖延,是提高学习积极性的好办法。

相关导读

文章直达 链接
上期回顾 【数据分析 - 基础入门之NumPy⑥】- NumPy案例巩固强化
下期预告 【数据分析 - 基础入门之pandas②】- pandas数据结构——Series

猜你喜欢

转载自blog.csdn.net/qq_62592360/article/details/131607994