PDF를 Word로 변환하는 몇 줄의 Python 코드만으로 매우 쉽게 해결할 수 있습니다.

PDF to Word는 오래된 주제이며 PDF 요소 위치 기반 형식에서 Word 콘텐츠 기반 형식으로의 매핑을 설정하는 데 어려움이 있습니다.

PDF 문서에는 단락과 표의 개념이 없습니다. PDF to Word에서 해야 할 일은 PDF 문서의 "텍스트 주변의 가로 세로선"을 Word의 "표"로 구문 분석하고 "텍스트와 가로줄"로 변환하는 것입니다. 그 아래 줄" "텍스트 밑줄" 등으로 구문 분석합니다.

분명히 하자면: pdf2docx는 Windows 및 Linux 플랫폼을 지원하며 Python 버전 >= 3.6이 필요합니다. 이 기사가 마음에 들면 북마크, 팔로우, 좋아요를 잊지 마세요.

[참고] 코드, 데이터 및 통신의 전체 버전은 기사 끝 부분에서 확인할 수 있습니다.

pdf2docx를 설치하는 방법:

pip install pdf2docx

그림

pdf2docx 사용

from pdf2docx import Converter

아이디어는 다음과 같다

  1. pdf 파일 경로를 가져옵니다.

  2. 현재 폴더에 있는 모든 pdf 파일을 필터링합니다.

  3. pdf 파일 이름과 접미사를 추출합니다.

  4. 파일명 + 'docx' 라는 단어를 이어붙여서 재구성(파일명 변경 없이 형식 변경).

  5. 파일 변환을 위해 pdf2docx를 사용하십시오.

소스 코드

코드는 매우 간단하고 소스 코드가 제공되며 아이디어는 주석에 설명되어 있습니다.

import os
from pdf2docx import Converter

def pdf_docx():
    # 获取当前工作目录
    file_path = os.getcwd()

    # 遍历所有文件
    for file in os.listdir(file_path):
        # 获取文件后缀
        suff_name = os.path.splitext(file)[1]

        # 过滤非pdf格式文件
        if suff_name != '.pdf':
            continue
        # 获取文件名称
        file_name = os.path.splitext(file)[0]
        # pdf文件名称
        pdf_name = os.getcwd() + '\\' + file
        # 要转换的docx文件名称
        docx_name = os.getcwd() + '\\' + file_name + '.docx'
        # 加载pdf文档
        cv = Converter(pdf_name)
        cv.convert(docx_name)
        cv.close()

시험

우리가 준비한 pdf 문서에는 형식과 그림이 있습니다. 먼저 테스트

그림

콘솔 정보는 다음과 같이 출력되며 0.17초만에 pdf->docx 파일 3페이지 변환 완료

[INFO] Start to convert E:\Python\pycharm++\GOGO数据\卢本伟.pdf
[INFO] [1/4] Opening document...
[INFO] [2/4] Analyzing document...
[WARNING] Replace font "MicrosoftYaHeiUI" with "Times New Roman" due to lack of data.
Deprecation: 'getText' removed from class 'Page' after v1.19.0 - use 'get_text'.
Deprecation: 'getImageList' removed from class 'Page' after v1.19.0 - use 'get_images'.
Deprecation: 'getImageBbox' removed from class 'Page' after v1.19.0 - use 'get_image_bbox'.
Deprecation: 'getPNGData' removed from class 'Pixmap' after v1.19.0 - use 'tobytes'.
Deprecation: 'getDrawings' removed from class 'Page' after v1.19.0 - use 'get_drawings'.
Deprecation: 'getLinks' removed from class 'Page' after v1.19.0 - use 'get_links'.
Deprecation: 'getArea' removed from class 'Rect' after v1.19.0 - use 'get_area'.
[INFO] [3/4] Parsing pages...
[INFO] (1/3) Page 1
[INFO] (2/3) Page 2
[INFO] (3/3) Page 3
[INFO] [4/4] Creating pages...
[INFO] (1/3) Page 1
[INFO] (2/3) Page 2
[INFO] (3/3) Page 3
[INFO] Terminated in 0.17s.

변환된 docx 파일 형식은 다음과 같습니다.

그림

pdf를 워드로 변환을 완료했으니 한계가 너무 큽니다 내 PC에 파이썬 환경이 없다면?

다음으로 언제 어디서나 문서를 변환할 수 있도록 파일을 패키지화합니다.

파이썬의 일반적인 패키징 방법은 pyinstaller 에 의해 구현됩니다 .

pip install pyinstaller 

그림

자세한 단계

pyinstaller는 명령줄 도구이며 다음은 자세한 단계입니다.

1. cmd python 파일의 디렉토리로 전환

그림

2. pyinstall -F pdfToword.py 명령을 실행합니다.

그림

실행 후 3개의 폴더가 생성됨을 알 수 있습니다.

그림

그 중 dist 폴더에는 저희가 패키징한 exe 파일이 있습니다.

그림

3. exe를 더블 클릭하여 성공적으로 실행합니다. 클릭 한 번으로 pdf-word 캡처 및 교환

충분히 편리합니다~~

그림
오늘의 나눔은 여기까지입니다

추천 기사

기술교류

재인쇄, 수집, 좋아요 및 지원을 환영합니다!

여기에 이미지 설명 삽입

현재 기술 교류 그룹이 개설되었으며 그룹에는 2,000명 이상의 회원 이 있습니다.추가할 때 가장 좋은 방법은 출처 + 관심 방향, 같은 생각을 가진 친구를 찾기에 편리합니다.

  • 방법 1. 다음 사진을 WeChat에 보내고, 길게 눌러 식별하고, 백그라운드에서 회신합니다. 그룹 추가;
  • 방법 ②, 마이크로 신호 추가: dkl88191 , 참고: CSDN에서
  • ③ 방법, 위챗 공개계정 검색 : 파이썬 학습 및 데이터 마이닝 , 백그라운드 회신 : 그룹 추가

길게 눌러 팔로우

추천

출처blog.csdn.net/qq_34160248/article/details/124249480