Python合并不同类型的文件内容(word,excel,txt)

提取文件内容


import docx
def merge_without_format(docx_files: list):
    '''
    只获取内容进行合并
    '''
    # 遍历每个文件
    for docx_file in sorted(docx_files):
        another_doc = Document(docx_file)
        # 获取每个文件的所有“段落”
        paras = another_doc.paragraphs
        # 获取所有段落的文字内容
        # paras_content = [para.text for para in paras]
        for para in paras:
            # 为新的word文件创建一个新段落
            newpar = doc.add_paragraph('')
            # 将提取的内容写入新的文本段落中
            newpar.add_run(para.text)

    # 所有文件合并完成后在指定路径进行保存
    doc.save(Path(word_files_path, 'new.docx'))
        

# 调用函数
merge_without_format(files)

我们 Word 和 Txt 合并之后保存到新的 Word 中,会出现 Txt 里的字体字号和原有文件不统一的问题,我们可以使用 python-docx 扩展库为 Txt 文件中的文字增加格式。如果合并前 Word 文件是仿宋字体,而且有下划线和红色字体,我们将 Txt 合并之后如何进行字体、样式和颜色的统一呢?我们可以使用下面这段代码。


def add_content_mode1(content):
    '''
    增加内容
    '''
    para = doc.add_paragraph().add_run(content)
    # 设置字体格式
    para.font.name = '仿宋'
    # 设置下划线
    para.font.underline = True
    # 设置颜色
    para.font.color.rgb = RGBColor(255,128,128)  

我们经常见到的图片格式就有.jpg、.png、.gif 等,由于这些格式应用范围广,格式没有被商业软件加密,所以 python-docx 库的 add_picture 函数就能实现把图片插入 Word 的功能。代码如下:


from docx import Document
from docx import shared

doc = Document()
# 按英寸设置宽度,添加图片
doc.add_picture('test.jpg', width=shared.Inches(1)) 

为了让你更好地理解如何进行 Word 和 Excel 文件的合并,我用一个利用 Excel 和 Word 批量制作邀请函的例子来给你讲解。


def generat_invitation():
    '''
    生成邀请函文件
    '''
    doc = Document(invitation)
    # 取出每一段
    for para in doc.paragraphs:
        for key, value in replace_content.items():
            if key in para.text:
                # 逐个关键字进行替换
                para.text = para.text.replace(key, value)

    file_name = PurePath(invitation_path).with_name(replace_content['<姓名>']).with_suffix('.docx')
    doc.save(file_name)

先将 Excel 中的每一行中的姓名、性别填入 Word 文件中;再将当前日期填入到 Word 文件中;最后再按照姓名另存为一个文件。

猜你喜欢

转载自blog.csdn.net/david2000999/article/details/121503176