6. 批量处理分析数据

需求:有20个品牌共生产了127个类目的产品,筛选出近一年销售额总额TOP5的品牌以及对应的销售额。

思路:先做第一个然后如法炮制将结果汇总即可。

数据信息如下:
在这里插入图片描述
加载数据:
在这里插入图片描述
接着,是要汇总不同品牌在这个细分行业下的销售额,我们要汇总的是各品牌近一年(2018年9月-2019年8月)的销售额,先看看日期是否正确:
在这里插入图片描述
每个品牌每个月份销售额计算如下:
在这里插入图片描述
按照品牌分组计算销售额总和前五的品牌:
在这里插入图片描述
这里有个细节,最终要汇总的是所有细分行业的销售额top5,给所属类别添加标签。
在这里插入图片描述
最终最终结果:

import time
start = time.time()
result = pd.DataFrame()
for name in os.listdir():
    df = pd.read_excel(name)
    df['销售额']= df['访客数']* df['转化率']*df['客单价']
    df_sum = df.groupby('品牌',)['销售额'].sum().reset_index()
    df_sum['类目'] = name.replace(".xlsx","")
    result = pd.concat([result,df_sum])
final = result.groupby('品牌')['销售额'].sum().reset_index().sort_values('销售额',ascending=False)
final.head()

在这里插入图片描述
看起来很奇怪的销售额,是pandas自作主张把实际销售额变成了 科学记数法 形式来展示,要还原数值,需要更改一下原始的设置:在这里插入图片描述
在这里插入图片描述

总结

本文以一个简单又复杂的场景切入,简单是需求本身非常简单,而复杂则是基础数据涉及到的表格多而杂。代码和逻辑本身浅显易懂,主要为了抛出一块砖,敲开批量处理表格的思维藩篱,以引出同志们实践中,在合适场景下用Python来化繁为简的玉。核心是分析出逻辑思维然后逐步细化

参考

提取码:7kyt

猜你喜欢

转载自blog.csdn.net/qq_31821675/article/details/107176776