提取PDF里面的EXCEL表格

提取PDF里面的EXCEL表格

1. 批量提取PDF中的表格,其中一些常见的工具包括:

  1. Tabula:Tabula 是一款免费的开源工具,可以轻松地从 PDF 中提取表格并将其导出为 CSV 格式的文件。。
  2. Adobe Acrobat Pro DC :Adobe Acrobat Pro DC 是一款收费的 PDF 编辑器,它具有一个功能强大的表格提取工具,可以帮助用户从 PDF 中提取表格,并将其保存为 Excel、Word 或 HTML 文件。
  3. PDFTables:PDFTables 是一款在线工具,可以将 PDF 中的表格转换为 Excel 文件。该工具需要用户购买订阅以获取更多功能。
  4. ABBYY FineReader:ABBYY FineReader 是一款功能强大的 OCR 软件,可以将 PDF 文件中的表格转换为可编辑的 Excel 文件,但它是一款收费软件。
  5. Smallpdf:Smallpdf 是一款在线工具,可以将 PDF 文件中的表格转换为 Excel 文件。该工具需要用户购买订阅以获取更多功能。

「请注意,在提取表格之前,确保您拥有适当的授权来复制和使用这些PDF 文件中的数据。」

2. 使用Python提取提取PDF中的excel表格

在 Python 中,您可以使用第三方库来提取 PDF 文件中的表格。其中一些常见的库包括::

  1. PyPDF2:这是一个用于处理 PDF 文件的 Python 库。使用 PyPDF2,您可以访问 PDF 文件中的每个页面和对象,并提取表格数据。
  2. Camelot:这是一个用于从 PDF 中提取表格的 Python 库。它可以轻松地处理包含复杂表格的 PDF 文件,并将其导出为 Pandas DataFrame。
  3. Tabula-py:Tabula-py是一个Python库,它是Tabula的Python接口,可以轻松地从PDF文件中提取表格并将其导出为CSV或JSON文件。
  4. PaddlePaddle:PaddlePaddle是一个开源深度学习平台,可以在其上使用Python编写深度学习模型。也可以可以使用PaddlePaddle处理PDF文件中的表格数据。

3.Python具体实现如下:

  1. Tabula-py :在这个例子中,我们使用了Tabula-py库,将表格从PDF文件中提取出来,并将其保存为CSV格式的文件。您可以根据需要调整页面和表格区域的参数,以提取您需要的表格数据。
import tabula

# 指定PDF文件的路径
pdf_path = "example.pdf"

# 指定提取表格的页面,可以是单个页面或多个页面
pages = "all"

# 指定表格的区域,可以是数字列表[x1, y1, x2, y2],也可以是"top", "bottom", "left", "right"和"all"
area = [0, 0, 100, 100]

# 使用tabula.read_pdf()函数读取表格
df = tabula.read_pdf(pdf_path, pages=pages, area=area)

# 将表格保存为CSV文件
df.to_csv("output.csv", index=False)

  1. 下面是使用PyPDF2提取PDF文件中的表格的一个简单示例
import PyPDF2

# 打开PDF文件
pdf_file = open('example.pdf''rb')

# 创建一个PDF文件阅读器对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)

# 获取PDF文件中的第一页
page = pdf_reader.getPage(0)

# 获取第一页中的表格文本
table_text = page.extractText()

# 关闭PDF文件
pdf_file.close()

# 输出表格文本
print(table_text)

「请注意,PyPDF2库不支持提取PDF文件中的所有表格,因为某些表格可能是作为图像呈现的,而不是真正的文本表格。在这种情况下,您可以考虑使用OCR工具来提取表格数据。」

4.PaddlePaddle具体实现如下:

「PaddlePaddle也可以用于提取PDF文件中的表格数据。您可以使用PaddleOCR这个OCR工具,它可以帮助您提取PDF文件中的文本和表格数据。具体操作步骤如下:」

  1. 安装PaddlePaddle和PaddleOCR:可以使用pip命令进行安装。
pip install paddlepaddle
pip install paddleocr
  1. 加载PDF文件并进行图像处理:将PDF文件加载到Python中,使用Pillow或OpenCV等工具将PDF文件转换为图像。
from pdf2image import convert_from_path
# 将PDF文件转换为图像
pages = convert_from_path('example.pdf')

3.使用PaddleOCR提取表格数据:使用PaddleOCR的TableRecognizer模型提取表格数据。

from paddleocr import PaddleOCR
# 加载OCR模型
ocr = PaddleOCR()
# 提取表格数据
for page in pages:
    result = ocr.table_recognize(
        table_lang="ch",
        img=page
    )
    for line in result:
        print(line)

在这个例子中,我们使用PaddleOCR库,将PDF文件转换为图像,并使用OCR模型提取表格数据。您可以根据需要使用PaddleOCR库中的其他模型和函数,以提取PDF文件中的其他内容,例如文本和图像等。

「如果需要数据和代码的请关注我的公众号」 alt

本文由 mdnice 多平台发布

猜你喜欢

转载自blog.csdn.net/weixin_43886163/article/details/129034042