PDF to Word는 오래된 주제이며 PDF 요소 위치 기반 형식에서 Word 콘텐츠 기반 형식으로의 매핑을 설정하는 데 어려움이 있습니다.
PDF 문서에는 단락과 표의 개념이 없습니다. PDF to Word에서 해야 할 일은 PDF 문서의 "텍스트 주변의 가로 세로선"을 Word의 "표"로 구문 분석하고 "텍스트와 가로줄"로 변환하는 것입니다. 그 아래 줄" "텍스트 밑줄" 등으로 구문 분석합니다.
분명히 하자면: pdf2docx는 Windows 및 Linux 플랫폼을 지원하며 Python 버전 >= 3.6이 필요합니다. 이 기사가 마음에 들면 북마크, 팔로우, 좋아요를 잊지 마세요.
[참고] 코드, 데이터 및 통신의 전체 버전은 기사 끝 부분에서 확인할 수 있습니다.
pdf2docx를 설치하는 방법:
pip install pdf2docx
pdf2docx 사용
from pdf2docx import Converter
아이디어는 다음과 같다
-
pdf 파일 경로를 가져옵니다.
-
현재 폴더에 있는 모든 pdf 파일을 필터링합니다.
-
pdf 파일 이름과 접미사를 추출합니다.
-
파일명 + 'docx' 라는 단어를 이어붙여서 재구성(파일명 변경 없이 형식 변경).
-
파일 변환을 위해 pdf2docx를 사용하십시오.
소스 코드
코드는 매우 간단하고 소스 코드가 제공되며 아이디어는 주석에 설명되어 있습니다.
import os
from pdf2docx import Converter
def pdf_docx():
# 获取当前工作目录
file_path = os.getcwd()
# 遍历所有文件
for file in os.listdir(file_path):
# 获取文件后缀
suff_name = os.path.splitext(file)[1]
# 过滤非pdf格式文件
if suff_name != '.pdf':
continue
# 获取文件名称
file_name = os.path.splitext(file)[0]
# pdf文件名称
pdf_name = os.getcwd() + '\\' + file
# 要转换的docx文件名称
docx_name = os.getcwd() + '\\' + file_name + '.docx'
# 加载pdf文档
cv = Converter(pdf_name)
cv.convert(docx_name)
cv.close()
시험
우리가 준비한 pdf 문서에는 형식과 그림이 있습니다. 먼저 테스트
콘솔 정보는 다음과 같이 출력되며 0.17초만에 pdf->docx 파일 3페이지 변환 완료
[INFO] Start to convert E:\Python\pycharm++\GOGO数据\卢本伟.pdf
[INFO] [1/4] Opening document...
[INFO] [2/4] Analyzing document...
[WARNING] Replace font "MicrosoftYaHeiUI" with "Times New Roman" due to lack of data.
Deprecation: 'getText' removed from class 'Page' after v1.19.0 - use 'get_text'.
Deprecation: 'getImageList' removed from class 'Page' after v1.19.0 - use 'get_images'.
Deprecation: 'getImageBbox' removed from class 'Page' after v1.19.0 - use 'get_image_bbox'.
Deprecation: 'getPNGData' removed from class 'Pixmap' after v1.19.0 - use 'tobytes'.
Deprecation: 'getDrawings' removed from class 'Page' after v1.19.0 - use 'get_drawings'.
Deprecation: 'getLinks' removed from class 'Page' after v1.19.0 - use 'get_links'.
Deprecation: 'getArea' removed from class 'Rect' after v1.19.0 - use 'get_area'.
[INFO] [3/4] Parsing pages...
[INFO] (1/3) Page 1
[INFO] (2/3) Page 2
[INFO] (3/3) Page 3
[INFO] [4/4] Creating pages...
[INFO] (1/3) Page 1
[INFO] (2/3) Page 2
[INFO] (3/3) Page 3
[INFO] Terminated in 0.17s.
변환된 docx 파일 형식은 다음과 같습니다.
pdf를 워드로 변환을 완료했으니 한계가 너무 큽니다 내 PC에 파이썬 환경이 없다면?
다음으로 언제 어디서나 문서를 변환할 수 있도록 파일을 패키지화합니다.
파이썬의 일반적인 패키징 방법은 pyinstaller 에 의해 구현됩니다 .
pip install pyinstaller
자세한 단계
pyinstaller는 명령줄 도구이며 다음은 자세한 단계입니다.
1. cmd python 파일의 디렉토리로 전환
2. pyinstall -F pdfToword.py 명령을 실행합니다.
실행 후 3개의 폴더가 생성됨을 알 수 있습니다.
그 중 dist 폴더에는 저희가 패키징한 exe 파일이 있습니다.
3. exe를 더블 클릭하여 성공적으로 실행합니다. 클릭 한 번으로 pdf-word 캡처 및 교환
충분히 편리합니다~~
오늘의 나눔은 여기까지입니다
추천 기사
기술교류
재인쇄, 수집, 좋아요 및 지원을 환영합니다!
현재 기술 교류 그룹이 개설되었으며 그룹에는 2,000명 이상의 회원 이 있습니다.추가할 때 가장 좋은 방법은 출처 + 관심 방향, 같은 생각을 가진 친구를 찾기에 편리합니다.
- 방법 1. 다음 사진을 WeChat에 보내고, 길게 눌러 식별하고, 백그라운드에서 회신합니다. 그룹 추가;
- 방법 ②, 마이크로 신호 추가: dkl88191 , 참고: CSDN에서
- ③ 방법, 위챗 공개계정 검색 : 파이썬 학습 및 데이터 마이닝 , 백그라운드 회신 : 그룹 추가