Python数据分析必学的8个核心库

在当今这个数据驱动的世界里,数据分析已经成为各行各业中不可或缺的一部分。Python,作为一种功能强大且易于学习的编程语言,因其丰富的库生态系统,在数据分析领域占据了举足轻重的地位。本文将介绍Python在数据分析中常用的8个经典库,帮助大家更好地了解和应用Python进行数据分析工作。

1. NumPy

NumPy(Numerical Python的简称)是Python科学计算的基础库。它提供了高性能的多维数组对象(ndarray)以及大量的数学函数来操作这些数组。

  • 数值计算基础: NumPy是所有数值计算任务的核心库,提供快速的数组运算。

  • 线性代数运算:  支持矩阵运算、特征值分解、奇异值分解等线性代数操作。

  • 随机数生成: 可以生成各种概率分布的随机数,用于模拟和统计分析。

代码示例:

import numpy as np

# 创建NumPy数组
a = np.array([1, 2, 3, 4, 5])
print("NumPy 数组:", a)

# 数组运算
b = a * 2
print("数组乘以 2:", b)

# 矩阵运算
matrix1 = np.array([[1, 2], [3, 4]])
matrix2 = np.array([[5, 6], [7, 8]])
matrix_product = np.dot(matrix1, matrix2)
print("矩阵乘积:\n", matrix_product)

2. Pandas

Pandas 是Python数据分析的核心库,提供了高性能、易于使用的数据结构,特别是DataFrameSeriesDataFrame允许您以表格形式组织和操作数据,类似于电子表格或SQL表。

  • 数据导入与导出:  可以读取和写入多种数据格式,如CSV、Excel、SQL数据库、JSON等。

  • 数据清洗与预处理:  提供缺失值处理、数据去重、数据转换等功能。

  • 数据分析与探索:  支持数据筛选、排序、分组、聚合、透视表等操作。

​这里插播一条粉丝福利,如果你正在学习Python或者有计划学习Python,想要突破自我,对未来十分迷茫的,可以点击这里获取最新的Python学习资料和学习路线规划(免费分享,记得关注)

import pandas as pd

# 创建 DataFrame
data = {'姓名': ['Alice', 'Bob', 'Charlie', 'David'],
        '年龄': [25, 30, 22, 35],
        '城市': ['北京', '上海', '广州', '深圳']}
df = pd.DataFrame(data)
print("DataFrame:\n", df)

# 读取 CSV 文件
# df_csv = pd.read_csv('data.csv')

# 数据筛选
df_filtered = df[df['年龄'] > 25]
print("年龄大于 25 的数据:\n", df_filtered)

3. Matplotlib

Matplotlib 是Python中最基础的绘图库,提供了广泛的静态、交互式和动画可视化选项。它是构建更高级可视化库(如Seaborn)的基础。

  • 创建各种图表:  包括折线图、散点图、柱状图、饼图、直方图等。

  • 定制化绘图:  可以精细控制图表的各个方面,如颜色、线条样式、标签、标题等。

  • 数据可视化探索:  用于初步的数据可视化和探索性分析。

import matplotlib.pyplot as plt

# 示例数据
x = np.linspace(0, 10, 100)
y = np.sin(x)

# 绘制折线图
plt.plot(x, y)
plt.title('正弦曲线')
plt.xlabel('X 轴')
plt.ylabel('Y 轴')
plt.show()

4. Seaborn

Seaborn 是基于Matplotlib的高级可视化库,专注于统计数据可视化。它提供了更美观、更信息丰富的默认样式,并简化了创建复杂统计图的过程。

  • 统计关系可视化:  例如散点图矩阵、成对关系图、分布图等,帮助理解变量间的统计关系。

  • 分类数据可视化:  箱线图、小提琴图、条形图等,用于比较不同类别数据的分布。

  • 热图和聚类图:  用于可视化矩阵数据和相关性,常用于探索数据集中的模式。

import seaborn as sns

# 示例数据集
iris = sns.load_dataset('iris')

# 绘制散点图矩阵
sns.pairplot(iris, hue='species')
plt.show()

# 绘制箱线图
sns.boxplot(x='species', y='sepal_length', data=iris)
plt.show()

5. SciPy

SciPy (Scientific Python) 是一个用于科学和技术计算的库,构建在NumPy之上。它提供了许多模块,用于优化、线性代数、积分、插值、特殊函数、FFT、信号和图像处理、常微分方程求解以及统计等。

常用用途:

  • 统计分析:  提供丰富的统计函数,如概率分布、统计检验、描述性统计等。

  • 优化和数值积分:  用于求解优化问题和计算数值积分。

  • 信号处理:  包含信号滤波、频谱分析等功能。

from scipy import stats
from scipy.optimize import minimize

# 统计检验 (t 检验)
data1 = np.random.normal(0, 1, 100)
data2 = np.random.normal(0.5, 1, 100)
t_statistic, p_value = stats.ttest_ind(data1, data2)
print("独立样本 t 检验:")
print("T 统计量:", t_statistic, "P 值:", p_value)

# 优化 (求函数最小值)
def objective_function(x):
    return x**2 + 5*np.sin(x)

result = minimize(objective_function, 0)
print("优化结果:\n", result)

6. Statsmodels

Statsmodels 是一个专注于统计建模和计量经济学的Python库。它提供了描述统计、统计检验以及评估和解释统计模型的类和函数。

  • 线性模型和回归分析:  包括普通最小二乘法 (OLS)、广义线性模型 (GLM)、稳健回归等。

  • 时间序列分析:  ARIMA、VAR 等时间序列模型。

  • 假设检验:  各种统计检验方法。

import statsmodels.api as sm

# 示例数据
X = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 5, 4, 5])
X = sm.add_constant(X) # 添加常数项

# 拟合 OLS 模型
model = sm.OLS(y, X)
results = model.fit()
print(results.summary())

7. Scikit-learn

Scikit-learn (也称为 sklearn) 是一个用于机器学习的Python库。虽然主要关注机器学习,但它也提供了许多用于数据分析的工具,例如数据预处理、降维、模型选择、评估等。

常用用途:

  • 数据预处理:  包括数据标准化、归一化、特征选择、降维等。

  • 模型训练与评估:  提供各种机器学习算法 (分类、回归、聚类等) 的实现,以及模型评估工具。

  • 交叉验证和参数调优:  用于提高模型泛化能力。

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 示例数据 (假设已加载数据 X, y)
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 训练逻辑回归模型
# model = LogisticRegression()
# model.fit(X_train, y_train)

# 预测与评估
# y_pred = model.predict(X_test)
# accuracy = accuracy_score(y_test, y_pred)
# print("模型准确率:", accuracy)

8. Plotly

Plotly 是一个用于创建交互式可视化图表的库。与Matplotlib和Seaborn相比,Plotly生成的图表可以在Web浏览器中进行缩放、平移、悬停等操作,更适合于数据探索和在线展示。

  • 创建交互式图表:  折线图、散点图、地理图、三维图等。

  • Web 应用和仪表板:  非常适合在Web应用和数据仪表板中嵌入交互式图表。

  • 数据探索和展示:  提供丰富的交互功能,便于深入探索数据和进行有效展示。

import plotly.express as px

# 示例数据
data = px.data.iris()

# 绘制交互式散点图
fig = px.scatter(data, x="sepal_width", y="sepal_length", color="species",
                 hover_data=['petal_width', 'petal_length'])
fig.show()

以上介绍的8个Python库是数据分析领域中最常用且经典的工具。NumPy和Pandas提供了数据处理的基础框架,Matplotlib、Seaborn和Plotly用于数据可视化,SciPy和Statsmodels用于统计分析和建模,Scikit-learn则提供了强大的机器学习功能。 掌握这些库,您将能够高效地进行各种数据分析任务。


全套Python学习资料分享:

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

图片

二、全套PDF电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

图片

三、python入门资料大全

图片

四、python进阶资料大全

图片

五、python爬虫专栏

图片

六、入门学习视频全套

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

图片

七、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

图片

八、python最新面试题

图片

获取资料:扫描下方CSDN官方二维码获娶↓↓↓↓↓

猜你喜欢

转载自blog.csdn.net/2301_78150559/article/details/146321066
今日推荐