Pandas 是一个开源的 Python 数据分析库,它提供了快速、灵活以及表达力强的数据结构,旨在使“关系”或“标签”数据的操作既简单又直观。它主要用于数据清洗和分析工作。Pandas 库是 Python 数据科学生态系统中的核心库之一,与 NumPy、SciPy、Matplotlib 和 Scikit-learn 等库一起使用,可以处理各种数据分析任务。
以下是一些入门 Pandas 的基本步骤:
-
安装 Pandas:
如果你还没有安装 Pandas,可以通过 pip 命令安装:pip install pandas
-
导入 Pandas:
在 Python 脚本或者交互式环境中,首先需要导入 Pandas 库:import pandas as pd
-
创建 DataFrame:
DataFrame 是 Pandas 中最常用的数据结构,类似于 Excel 中的表格。你可以从字典、列表、NumPy 数组等多种数据结构创建 DataFrame:data = { 'Name': ['John', 'Anna', 'Peter', 'Linda'], 'Age': [28, 23, 34, 29], 'City': ['New York', 'Paris', 'Berlin', 'London']} df = pd.DataFrame(data)
-
查看数据:
使用head()
和tail()
方法查看 DataFrame 的前几行和后几行数据:print(df.head()) print(df.tail())
-
选择数据:
你可以通过标签或位置选择数据:# 通过标签选择 print(df['Name']) # 通过位置选择 print(df.iloc[0])
-
数据过滤:
使用条件语句来过滤数据:print(df[df['Age'] > 30])
-
数据清洗:
Pandas 提供了强大的数据清洗功能,如处理缺失值、数据类型转换等:# 填充缺失值 df.fillna(value='Unknown', inplace=True) # 转换数据类型 df['Age'] = df['Age'].astype('int')
-
数据聚合:
Pandas 支持多种数据聚合操作,如求和、平均值、最大值等:print(df.groupby('City').mean())
-
数据合并:
你可以使用merge()
和concat()
等函数来合并数据:扫描二维码关注公众号,回复: 17500096 查看本文章df1 = pd.DataFrame({ 'Name': ['John', 'Anna'], 'Age': [28, 23]}) df2 = pd.DataFrame({ 'Name': ['John', 'Anna'], 'City': ['New York', 'Paris']}) merged_df = pd.merge(df1, df2, on='Name')
-
数据导出:
将 DataFrame 导出到 CSV 文件或其他格式:df.to_csv('data.csv', index=False)