pandas数据分析40——读取 excel 合并单元格的表头 - 代码天地

pandas数据分析40——读取 excel 合并单元格的表头

企业开发 2023-10-01 23:38:43 阅读次数: 0

案例背景

真的很容易疯....上班的单位的表格都是不同的人做的，所以就会出现各种合并单元格的情况，要知道我们用pandas读取数据最怕合并单元格了，因为没规律...可能前几列没合并，后面几列又合并了....而且pandas对于索引很严格，这种合并单元读取进来就是空的，还怎么查找数据......例如：

还有这种：

读取的时候....真的很无语。虽然手工做的表头方便人看，但真的不方便代码来取数。

下面我们来看看怎么自动化读取这种多合并表格的数据，并规范表头。就用这个资产的样例

代码实现

读取数据，前2行都是标题没用跳过，然后header=0,1表示2行作为多层索引。

name='资产类别统计表2023.7.xlsx'

df=pd.read_excel(f'{name}',skiprows=2,header=[0,1],converters={'类别编号': str})
df.head(3)

可以看到有‘unnamed’这种合并单元出现的空值的情况。

我们可以打印查看一下行索引名称：

df.columns

像这种只有部分下面缺失的，可以直接用上面的第一层索引填充第二层索引，让它还是两层索引，然后继续做多层索引数据框。

cols = df.columns.map(lambda x: [x[0]if 'Unnamed' in i else i for i in x])
multi_cols = pd.MultiIndex.from_arrays([list(col) for col in zip(*cols)])
df.columns=multi_cols
df.head(2)

这样就是处理好，然后按照多层索引的方法去进行取数。

若多层索引不熟悉，只想变成正常的二维数据框，那么就这样：

cols = df.columns.map(lambda x: ''.join('' if 'Unnamed' in i else i for i in x))
cols

把第一层和第二层的名称都进行合并，然后赋值：

df.columns=cols
df.head(2)

这样就变成了单层数据框，完成！

后面就正常的pandas索引进行取数修改筛选计算等工作了。

猜你喜欢

转载自blog.csdn.net/weixin_46277779/article/details/132324085

pandas数据分析40——读取 excel 合并单元格的表头

Excel合并单元格读取

Excel数据单元格数据合并

easyexcel导出excel自定义合并单元格【动态表头和动态数据均可以自由合并】

JAVA：Excel合并单元格数据读取

easyexcel读取excel合并单元格数据

POI导出Excel表格（多行表头、合并单元格）

python-Excel读取-合并单元格读取

Pandas读取excel合并单元格的正确姿势（openpyxl合并单元格拆分并填充内容）

Qt 读取Excel 合并单元格特殊处理

java poi 读取有合并单元格的EXCEL文件

Java读取Excel中的合并单元格

关于Easyexcel读取EXCEL合并单元格信息

excel取消合并单元格并自动填充数据

java实现数据的Excel导出（合并单元格、样式等）

EXCEL 取消合并单元格保留数据宏 VBE

easyexcel导出excel文件合并相同单元格数据

Python简单处理excel数据（拆分合并单元格、根据表头合并sheet、添加列数、添加内容操作）

excel的单元格合并

excel合并单元格

Excel——合并单元格

poi导出Excel报表多表头双层表头、合并单元格

POI导出excel,合并单元格。标题列有的单元格数据填入失败。

.net读取Excel转datatable、.net读取的Excel存在合并单元格并且转成datatable

excel 数据读取，数据遍历，获取日期数据和合并单元格数据

Excel上传，后台读取数据，处理合并单元格的特殊操作

python读取excel文件,做数据透视(单元格合并)

复杂的POI导出Excel表格（多行表头、合并单元格）

Java使用POI导出Excel表格（多行表头、合并单元格）

读取EXCEL单元格，小数问题

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)