【升华】python pandas库学习总结

pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool,
built on top of the Python programming language.

Pandas 是 Python 数据分析的核心技术库，可以进行数据的读取、清洗、过滤、统计、分析、汇总、透视、特征工程、数据可视化等各种处理和分析，是数据分析和机器学习等学科的重要基础技术。

Pandas的数据结构

Pandas主要有两种数据结构：‌‌Series‌和‌‌DataFrame‌。

‌Series‌：一维数组，具有标签。可以看作是一个一维数组，但每个元素都有一个标签。
‌DataFrame‌：二维的表格型数据结构，类似于Excel表格，可以存储不同数据类型的数据，并且支持缺失值。

Pandas的基本操作

‌位置索引访问‌：通过位置索引访问Series中的元素，例如s访问第一个元素。
‌标签索引访问‌：通过标签索引访问DataFrame中的行，例如df['column_name']访问某列。
‌查看数据信息‌：使用head()和tail()方法快速预览数据的前几行和后几行。
‌数据清洗‌：包括删除重复行、填充缺失值等操作。

Pandas的高级功能

‌聚合函数‌：Pandas支持多种聚合函数，如sum()、mean()、max()、min()等，用于计算统计指标。
‌数据透视表‌：使用pivot_table()方法创建数据透视表，用于数据的汇总和转换。
‌缺失值处理‌：Pandas提供了丰富的函数处理缺失值，如dropna()删除含有缺失值的行，fillna()填充缺失值。

什么是 Pandas
Pandas 怎样读取数据
Pandas 的数据结构 DataFrame 和 Series
Pandas 查询数据的5种方法
Pandas 怎样新增数据列
Pandas 的数据统计函数
Pandas 对缺失值的处理
Pandas 的 SettingWithCopyWarning 报警
Pandas 怎样对数据进行排序
Pandas 字符串处理
Pandas 的 axis 参数怎么理解
Pandas 的索引 index 有什么用途
Pandas 怎样实现数据的 Merge
Panda 实现数据 Concat 合并
Pandas 批量拆分与合并 Excel 文件
Pandas 怎样实现分组数据统计
怎样使用 Pandas 的分层索引 Multilndex
怎样使用 Pandas 的 map-apply-applymap 数据转换函数
Pandas 怎样实现 groupby 每个分组的 apply
Pandas 使用 stack 和 pivot 实现数据透视

python中使用

import numpy as np
import pandas as pd
from collections import namedtuple

Item = namedtuple('Item', 'reply pv')
items = []

with codecs.open('reply.pv.07', 'r', 'utf-8') as f: 
    for line in f:
        line_split = line.strip().split('\t')
        items.append(Item(line_split[0].strip(), line_split[1].strip()))

df = pd.DataFrame.from_records(items, columns=['reply', 'pv'])
 
df = pd.DataFrame(pd.read_csv('name.csv',header=1))
df = pd.DataFrame(pd.read_excel('name.xlsx'))

Pandas的数据结构

Pandas的基本操作

Pandas的高级功能

猜你喜欢

目录

热门文章