提取PDF里面的EXCEL表格

1. 批量提取PDF中的表格，其中一些常见的工具包括：

Tabula：Tabula 是一款免费的开源工具，可以轻松地从 PDF 中提取表格并将其导出为 CSV 格式的文件。。
Adobe Acrobat Pro DC ：Adobe Acrobat Pro DC 是一款收费的 PDF 编辑器，它具有一个功能强大的表格提取工具，可以帮助用户从 PDF 中提取表格，并将其保存为 Excel、Word 或 HTML 文件。
PDFTables：PDFTables 是一款在线工具，可以将 PDF 中的表格转换为 Excel 文件。该工具需要用户购买订阅以获取更多功能。
ABBYY FineReader：ABBYY FineReader 是一款功能强大的 OCR 软件，可以将 PDF 文件中的表格转换为可编辑的 Excel 文件，但它是一款收费软件。
Smallpdf：Smallpdf 是一款在线工具，可以将 PDF 文件中的表格转换为 Excel 文件。该工具需要用户购买订阅以获取更多功能。

「请注意，在提取表格之前，确保您拥有适当的授权来复制和使用这些PDF 文件中的数据。」

2. 使用Python提取提取PDF中的excel表格

在 Python 中，您可以使用第三方库来提取 PDF 文件中的表格。其中一些常见的库包括：：

PyPDF2：这是一个用于处理 PDF 文件的 Python 库。使用 PyPDF2，您可以访问 PDF 文件中的每个页面和对象，并提取表格数据。
Camelot：这是一个用于从 PDF 中提取表格的 Python 库。它可以轻松地处理包含复杂表格的 PDF 文件，并将其导出为 Pandas DataFrame。
Tabula-py：Tabula-py是一个Python库，它是Tabula的Python接口，可以轻松地从PDF文件中提取表格并将其导出为CSV或JSON文件。
PaddlePaddle:PaddlePaddle是一个开源深度学习平台，可以在其上使用Python编写深度学习模型。也可以可以使用PaddlePaddle处理PDF文件中的表格数据。

3.Python具体实现如下：

Tabula-py :在这个例子中，我们使用了Tabula-py库，将表格从PDF文件中提取出来，并将其保存为CSV格式的文件。您可以根据需要调整页面和表格区域的参数，以提取您需要的表格数据。

import tabula

# 指定PDF文件的路径
pdf_path = "example.pdf"

# 指定提取表格的页面，可以是单个页面或多个页面
pages = "all"

# 指定表格的区域，可以是数字列表[x1, y1, x2, y2]，也可以是"top", "bottom", "left", "right"和"all"
area = [0, 0, 100, 100]

# 使用tabula.read_pdf()函数读取表格
df = tabula.read_pdf(pdf_path, pages=pages, area=area)

# 将表格保存为CSV文件
df.to_csv("output.csv", index=False)

下面是使用PyPDF2提取PDF文件中的表格的一个简单示例

import PyPDF2

# 打开PDF文件
pdf_file = open('example.pdf', 'rb')

# 创建一个PDF文件阅读器对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 获取PDF文件中的第一页
page = pdf_reader.getPage(0)

# 获取第一页中的表格文本
table_text = page.extractText()

# 关闭PDF文件
pdf_file.close()

# 输出表格文本
print(table_text)

「请注意，PyPDF2库不支持提取PDF文件中的所有表格，因为某些表格可能是作为图像呈现的，而不是真正的文本表格。在这种情况下，您可以考虑使用OCR工具来提取表格数据。」

4.PaddlePaddle具体实现如下：

「PaddlePaddle也可以用于提取PDF文件中的表格数据。您可以使用PaddleOCR这个OCR工具，它可以帮助您提取PDF文件中的文本和表格数据。具体操作步骤如下：」

安装PaddlePaddle和PaddleOCR：可以使用pip命令进行安装。

pip install paddlepaddle
pip install paddleocr

加载PDF文件并进行图像处理：将PDF文件加载到Python中，使用Pillow或OpenCV等工具将PDF文件转换为图像。

from pdf2image import convert_from_path
# 将PDF文件转换为图像
pages = convert_from_path('example.pdf')

3.使用PaddleOCR提取表格数据：使用PaddleOCR的TableRecognizer模型提取表格数据。

from paddleocr import PaddleOCR
# 加载OCR模型
ocr = PaddleOCR()
# 提取表格数据
for page in pages:
    result = ocr.table_recognize(
        table_lang="ch",
        img=page
    )
    for line in result:
        print(line)

在这个例子中，我们使用PaddleOCR库，将PDF文件转换为图像，并使用OCR模型提取表格数据。您可以根据需要使用PaddleOCR库中的其他模型和函数，以提取PDF文件中的其他内容，例如文本和图像等。

「如果需要数据和代码的请关注我的公众号」 alt

本文由 mdnice 多平台发布

提取PDF里面的EXCEL表格

提取PDF里面的EXCEL表格

1. 批量提取PDF中的表格，其中一些常见的工具包括：

2. 使用Python提取提取PDF中的excel表格

3.Python具体实现如下：

4.PaddlePaddle具体实现如下：

猜你喜欢