Pandas数据分析库简介

Pandas 是一个开源的 Python 数据分析库,它提供了快速、灵活以及表达力强的数据结构,旨在使“关系”或“标签”数据的操作既简单又直观。它主要用于数据清洗和分析工作。Pandas 库是 Python 数据科学生态系统中的核心库之一,与 NumPy、SciPy、Matplotlib 和 Scikit-learn 等库一起使用,可以处理各种数据分析任务。

以下是一些入门 Pandas 的基本步骤:

  1. 安装 Pandas
    如果你还没有安装 Pandas,可以通过 pip 命令安装:

    pip install pandas
    
  2. 导入 Pandas
    在 Python 脚本或者交互式环境中,首先需要导入 Pandas 库:

    import pandas as pd
    
  3. 创建 DataFrame
    DataFrame 是 Pandas 中最常用的数据结构,类似于 Excel 中的表格。你可以从字典、列表、NumPy 数组等多种数据结构创建 DataFrame:

    data = {
          
          'Name': ['John', 'Anna', 'Peter', 'Linda'],
            'Age': [28, 23, 34, 29],
            'City': ['New York', 'Paris', 'Berlin', 'London']}
    df = pd.DataFrame(data)
    
  4. 查看数据
    使用 head()tail() 方法查看 DataFrame 的前几行和后几行数据:

    print(df.head())
    print(df.tail())
    
  5. 选择数据
    你可以通过标签或位置选择数据:

    # 通过标签选择
    print(df['Name'])
    
    # 通过位置选择
    print(df.iloc[0])
    
  6. 数据过滤
    使用条件语句来过滤数据:

    print(df[df['Age'] > 30])
    
  7. 数据清洗
    Pandas 提供了强大的数据清洗功能,如处理缺失值、数据类型转换等:

    # 填充缺失值
    df.fillna(value='Unknown', inplace=True)
    
    # 转换数据类型
    df['Age'] = df['Age'].astype('int')
    
  8. 数据聚合
    Pandas 支持多种数据聚合操作,如求和、平均值、最大值等:

    print(df.groupby('City').mean())
    
  9. 数据合并
    你可以使用 merge()concat() 等函数来合并数据:

    扫描二维码关注公众号,回复: 17500096 查看本文章
    df1 = pd.DataFrame({
          
          'Name': ['John', 'Anna'], 'Age': [28, 23]})
    df2 = pd.DataFrame({
          
          'Name': ['John', 'Anna'], 'City': ['New York', 'Paris']})
    merged_df = pd.merge(df1, df2, on='Name')
    
  10. 数据导出
    将 DataFrame 导出到 CSV 文件或其他格式:

    df.to_csv('data.csv', index=False)
    

猜你喜欢

转载自blog.csdn.net/hkbbkk/article/details/143288603