自动化办公-PDF篇

企业开发 2023-07-29 18:03:49 阅读次数: 0

本章介绍pdf自动化办公——pdfplumber的使用。本文由于特殊因素，本人觉得还有所欠缺，建议先看结尾。

目录

导入库及文件

1. 获取页码

2. 获取一个页面上的一个表格

3. 获取一个页面上的全部表格

4. 获取一个页面上全部文字

5. 获取当前页的页码

导入库及文件

import pdfplumber
file = pdfplumber.open(r"C:\Users\流光、月影\Desktop\pdfplumber.pdf")

1. 获取页码

file.pages

print(file.pages)

图1

输出页码。如果想要统计总页码数，可以使用 len函数。以下所有操作都基于此之上。

2. 获取一个页面上的一个表格

page.extract_table()

由于该文件为某学校的文件，这里就不提供文件及代码了，仅供截图，请原谅。

图2

如果想要把该表转换成表格，可以通过pandas完成：

与原表并无多大区别。

3. 获取一个页面上的全部表格

page.extract_tables()

图3

输出的内容相比于图2，首尾多了一个[]。我们可以看开头，一个[为一个列表（一行或一列）；两个[[为一个面，相当于一个excel表格那样；三个[[[为多个面组成的三维结构，可表示多个面。这个案例一个面就相当于一个表。想要清楚地理解这个知识，需要有numpy和pandas基础。

4. 获取一个页面上全部文字

page.extract_text()

5. 获取当前页的页码

page.page_number 准确来说，是第几页，而不是页码，因为页码可以从任意页开始。

file.pages[1] 表示第2页（ file.pages[0] 表示第1页）。

结尾

本文本人认为不够理想，因为没有给代码，但是由于文件的原因，可能不太方便，也不想带来任何麻烦，尽管可能没有，所以就不提供源文件了。由于没有源文件，提供代码感觉用处也不大，无法运行（看图的代码和输出分析可能更好）。如果浪费了大家时间，本人在这深深表示抱歉。

最后，记得关闭文件。如果是一个几个，问题不大，如果是几十个上百个，那要在每一个文件处理完后都要关闭，不然占用太多内存，影响运行效率。关闭文件代码如下：

file.close()

猜你喜欢

转载自blog.csdn.net/m0_71559726/article/details/130271115

自动化办公-PDF篇

python自动化办公-----合并PDF

自动化办公-word篇

Python自动化办公：docx篇

Python自动化办公：pptx篇

办公自动化-world转pdf-0223

Python自动化办公系列之Python操作PDF

Python自动化办公word、ppt转pdf

Python 办公自动化之 PDF 操作详解

【Python】自动化办公篇二——python绘制数据

【Python】自动化办公篇一——python读写excel

【Python自动化办公】——EXCEL交互篇

自动化办公-excel篇 openpyxl的使用详解

Python 自动化办公

Python自动化办公

学Python，用Python自动创建PDF文档，实现办公自动化

python自动化办公——python操作Excel、Word、PDF集合大全

Python办公自动化｜批量合并PDF，拿来就用

职场福利！Python自动化办公实现批量Word转pdf

python常用库自动化办公类 —— PyPDF2（处理pdf文件）

Python自动化办公：将Excel表格内容批量导出为PDF文件

办公自动化：用 Python 玩转 PDF 真的很香

最强 Python 办公自动化之 PDF 攻略来了

Python办公自动化 -- 对PDF文档和PPT文档的处理

python自动化办公：文件篇（自动整理文件，一键完成）

【Python】自动化办公篇六——python自动发送多个邮件

【Python】自动化办公篇六——python自动接收邮件

Python办公自动化之Excel做表自动化：全网最全，看这一篇就够了！

摸鱼办公自动化~~PDF文件合并器，用Python将多个PDF文件进行合并

企业办公自动化

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)