Pandas数据分析库简介

Pandas 是一个开源的 Python 数据分析库，它提供了快速、灵活以及表达力强的数据结构，旨在使“关系”或“标签”数据的操作既简单又直观。它主要用于数据清洗和分析工作。Pandas 库是 Python 数据科学生态系统中的核心库之一，与 NumPy、SciPy、Matplotlib 和 Scikit-learn 等库一起使用，可以处理各种数据分析任务。

以下是一些入门 Pandas 的基本步骤：

安装 Pandas：
如果你还没有安装 Pandas，可以通过 pip 命令安装：
```
pip install pandas
```
导入 Pandas：
在 Python 脚本或者交互式环境中，首先需要导入 Pandas 库：
```
import pandas as pd
```

创建 DataFrame：
DataFrame 是 Pandas 中最常用的数据结构，类似于 Excel 中的表格。你可以从字典、列表、NumPy 数组等多种数据结构创建 DataFrame：

data = {
      
      'Name': ['John', 'Anna', 'Peter', 'Linda'],
        'Age': [28, 23, 34, 29],
        'City': ['New York', 'Paris', 'Berlin', 'London']}
df = pd.DataFrame(data)

查看数据：
使用 head() 和 tail() 方法查看 DataFrame 的前几行和后几行数据：
```
print(df.head())
print(df.tail())
```

选择数据：
你可以通过标签或位置选择数据：

# 通过标签选择
print(df['Name'])

# 通过位置选择
print(df.iloc[0])

数据过滤：
使用条件语句来过滤数据：
```
print(df[df['Age'] > 30])
```

数据清洗：
Pandas 提供了强大的数据清洗功能，如处理缺失值、数据类型转换等：

# 填充缺失值
df.fillna(value='Unknown', inplace=True)

# 转换数据类型
df['Age'] = df['Age'].astype('int')

数据聚合：
Pandas 支持多种数据聚合操作，如求和、平均值、最大值等：
```
print(df.groupby('City').mean())
```

数据合并：
你可以使用 merge() 和 concat() 等函数来合并数据：

df1 = pd.DataFrame({
      
      'Name': ['John', 'Anna'], 'Age': [28, 23]})
df2 = pd.DataFrame({
      
      'Name': ['John', 'Anna'], 'City': ['New York', 'Paris']})
merged_df = pd.merge(df1, df2, on='Name')

数据导出：
将 DataFrame 导出到 CSV 文件或其他格式：
```
df.to_csv('data.csv', index=False)
```

猜你喜欢

目录

热门文章