有没有一些让你相见恨晚的python库?

欢迎客官光临,这里主要给大家介绍一下pandas-profiling库,一行代码,生成超详细的数据分析报告,数据分析师的福音。

主菜之前先送两个小菜给大家~

1、爬虫的吸星大法,下面几句的搭配应用应该可以下载万物了

import re
import ele
import requests
import bs4

2、Tqdm堪称python的监视器

Tqdm 是 Python 进度条库,堪称贴心小棉袄,时刻告诉你任务进度,监控运行状态,强迫症患者最爱。
在这里插入图片描述
好嘞~小菜已经准备完毕,接下来介绍一下今天的主菜,干净整洁,应该算是分析全席的清炒时蔬了。

3、pandas-profiling,一行代码生成超详细数据分析报告

实乃我等数据分析从业者的福音哈哈~
「特别感谢知乎高楠的分享」

一般来说,面对一个数据集,我们需要做一些探索性分析 (Exploratory data analysis),这个过程繁琐而冗杂,每个数据分析师肯定有自己常用的一些配料,这里介绍一个非常简单有趣的方法。为了防止这个菜与楠姐炒出来完全一致,换一个最近建模数据集为例

我们传统方法是先用Dataframe.describe():
在这里插入图片描述

通过这种方法,我们只能大致判断各个变量的分布以及target的情况,但是无法获取更详细的信息,如果我们需要进一步探索数据,查看变量相关性等,我们就可以利用pandas-profiling来填饱肚子啦~
然后一键储存为html格式,非常方便:

import pandas as pd
import pandas_profiling  

data=pd.read_csv("model.csv")
profile = pandas_profiling.ProfileReport(data)

profile.to_file(output_file='model_report.html')

具体生成的报告如下:
在这里插入图片描述
在这里插入图片描述
最后,虽然pandas-profiling这个库并非完全智能,但是一份基础的数据报告,可以为我们节省大量时间(少敲代码),数据分析师们赶紧用起来吧~

发布了15 篇原创文章 · 获赞 430 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_43931438/article/details/103871107