数据分析总结七:python与数据分析

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/shuryuu/article/details/85677449

1.Python基本功能

1.利用Python写脚本

2.excel可视化有性能瓶颈,需要Python来实现。

3.Python与数据分析相关如下

  • Python的数据科学环境
  • Python基础
  • Numpy和Pandas
  • 数据可视化(Matplotlib)
  • 数据分析案例
  • 数据分析平台(轻量级BI)

2.Numpy和pandas

1.Python groupby

mysql不支持分组排序

2.concat和merge

concat是强行耦合

merge,是有共同名,优先表进行耦合

3.多重索引

4.文本函数

填充空值,None需要用np.nan,c语言形式的控制

pd.dropna()去除所有还有空值的行

5.Python pandas apply

6.聚合 apply

7.pandas数据透视

7.python连接数据库

Pandas中读取数据库:

conn=pymysql.connect(
    host='localhost',
    user='root',
    password='123456',
    db='data_kejilie',
    port=3306,
    charset='utf8'
)
def reader(query,db):
    sql=query
    engine=create_engine('mysql+pymysql://root:123456@localhost/{0}?charset=utf8').format(db))
    df=pd.read_sql(sql,engine)
    return df
    
reader
​
cur.execute('select * from article_link ')
​
data=cur.fetchall()
​
cur.close()
conn.commit()

3.数据可视化

可视化可自行百度学习Matplotlib模块。

4.案例实战分析

相关案例可自行百度。

5.数据分析平台

推荐使用的是Python中的Superset库,基于web的数据分析平台。(详细部署流程可自行百度)

严重提示:安装这个库一定要新建一个虚拟环境后再进行pip安装,不然会使得依赖库和Anaconda中的部分库冲突,使得原环境的库无法正常调用

使用逻辑:

  1. 先加载数据库或者数据文件
  2. 写好sql语法,进行一定编辑数据集。
  3. 在silces里面对于数据集,进行一个个图的绘画与调整
  4. Dashboard里进行最后图表的汇合。

猜你喜欢

转载自blog.csdn.net/shuryuu/article/details/85677449