06《Python 办公自动化教程》Word 转换 PDF
off999 2024-09-21 20:59 21 浏览 0 评论
在工作中 Word 文档通常不是最终版本,在发给甲方或者其他同事时,我们还需要把Word文档转换为PDF格式文件。那为什么需要转换 PDF,直接发 Word 文档又有什么问题?
其实直接发 Word 文档问题还是挺大的,可以大致总结以下几点:
- 由于每个人使用的软件或版本都不统一,可能你使用的是微软的 Office2007,而他使用的是金山WPS,这样有可能你本地样式已经好好的 Word 文档,在别人电脑上就出现了乱码;
- PDF 可以直接预览,目前主流浏览器都已经支持;
- PDF 文件无法修改,保证了信息安全。
了解了转换 PDF 格式文件的作用之后,接下来这一小节中,将介绍 Python 第三方模块 pywin32 实现Word 文档转换为 PDF 格式文件。
1. pywin32 模块介绍
在 Windows 上如需使用 Python 编写脚本,很多时候都需要用到 Windows API,但 Python 是没有自带访问 Windows 系统 API 的标准库,所以这时可以使用第三方库 pywin32 来解决,pywin32 模块中直接包装了几乎所有的 Windows API,让开发者可以很方便的调用。
使用 python win32 库实现 Word 转换 PDF,实际上是调用 Word 底层 vba,利用 Word 导出方法完成 PDF 转换,文档地址:
1.1 安装
pywin32 是 Python 的第三方库,使用前需要通过以下命令进行安装:
pip install pywin32
1.2 使用步骤
步骤1:导入 pywin32 下所需模块
from win32com.client import constants,gencache
代码块1
步骤2:启动一个新的 Word 进程
word=gencache.EnsureDispatch('Word.Application')
代码块1
步骤3:读取要转换的 Word 文档
doc=word.Documents.Open(wordPath,ReadOnly=1)
代码块1
步骤4:转换 PDF 格式文件
doc.ExportAsFixedFormat(pdfPath,constants.wdExportFormatPDF)
代码块1
ExportAsFixedFormat() 方法可以将文档保存为 PDF 或 XPS 格式,第一个参数指定新的 PDF 或 XPS 文件的路径和文件名,第二个参数是一个枚举值(取值包括:wdExportFormatPDF 和 wdExportFormatXPS)用于指定转换的格式,上述代码中要将文档转换为 PDF 在设置时设置为constants.wdExportFormatPDF。
2. Word 文档转换 PDF
接下来,通过 pywin32 模块分别实现单个 Word 文档的转换和多个Word 文档的转换。
2.1 单个文件转换
根据pywin32模块的使用步骤,封装转换方法 createpdf 方法,代码如下:
def createpdf(wordPath,pdfPath):
word=gencache.EnsureDispatch('Word.Application')
doc=word.Documents.Open(wordPath,ReadOnly=1)
#转换方法
doc.ExportAsFixedFormat(pdfPath,constants.wdExportFormatPDF)
代码块12345
代码解释:EnsureDispatch() 方法为启动一个新的 Word 进程,通过启动的 Word 进程读取传入指定的Word 文档,打开 Word 文档后,通过 ExportAsFixedFormat() 方法进行导出 PDF,第一个参数为指定的PDF 文件存储路径,第二个参数为指定导出文件的类型,除 PDF 外,还可以传入 XPS 格式。执行完成后,生成了 “info.pdf” 格式文件,效果如下图所示:
2.2 多个文件转换
完成单个 Word 文档转换之后,日常工作中有时会涉及到批量 Word文 档的转换,这时可以在单个Word 文档转换代码的基础上进行完善,修改后代码如下:
from win32com.client import constants,gencache
import os
def createpdf(wordPath,pdfPath):
word=gencache.EnsureDispatch('Word.Application')
doc=word.Documents.Open(wordPath,ReadOnly=1)
#转换方法
doc.ExportAsFixedFormat(pdfPath,constants.wdExportFormatPDF)
#多个文件的转换
print(os.listdir('.')) #当前文件夹下的所有文件
wordfiles=[]
for file in os.listdir('.'):
if file.endswith(('.doc','.docx')):
wordfiles.append(file)
for file in wordfiles:
filepath=os.path.abspath(file)
index=filepath.rindex('.')
# 拼接文件名及.pdf后缀
pdfpath=filepath[:index]+'.pdf'
createpdf(filepath,pdfpath)
代码解释:通过 Python 中内置的os模块,读取指定目录获取所有的 Word 文档,保存在wordfiles中。通过for…in循环wordfiles,在循环中,首先根据abspath()方法得到文档的绝对路径,将文档名称拼接.pdf作为PDF文件的新名称。调用封装好的createpdf() 方法将文档路径和PDF文件路径传入,进行文件转换。执行完成后,在指定目录就批量生成 PDF 格式文件。
3. pywin32 模块拓展
前面提到pywin32 模块中直接包装了几乎所有的 Windows API,除了前面小节介绍的转换PDF外,还可以进行如下操作,一起来体验下吧!
3.1 弹出MessageBox消息框
使用pywin32实现系统消息框的弹出,代码如下:
import win32api
import win32con
win32api.MessageBox(0, "Hello Python", "消息框标题", win32con.MB_OK)
代码块123
代码解释:MessageBox() 方法弹出消息框,第一个参数标识要创建的消息框的所有者窗口,第二个参数指向要显示的消息,第三个参数表示对话框标题,第四个参数指定一组位标志来确定对话框的内容和行为,取值范围如下:
- MB_ABORTRETRYIGNORE:消息框包含三个按钮:中止,重试和忽略;
- MB_OK:消息框包含一个按钮:OK。这是默认值;
- MB_OKCANCEL:消息框包含两个按钮:确定和取消;
- MB_RETRYCANCEL:消息框包含两个按钮:重试和取消;
- MB_YESNO:消息框包含两个按钮:是和否;
- MB_YESNOCANCEL:消息框包含三个按钮:是,否和取消。
执行完成后,弹出消息框效果如下图所示:
3.2 模拟键盘操作
使用 pywin32 模拟按下键盘的回车键(Enter),代码如下:
import win32api,win32con
win32api.keybd_event(13,0,win32con.KEYEVENTF_EXTENDEDKEY)
代码解释:keybd_event() 方法为触发键盘事件,第一个参数为虚拟键码(13表示回车键),第二个参数为硬件扫描码,一般设置为0即可,第三个参数表示操作的标志位,如果值为KEYEVENTF_EXTENDEDKEY则该键被按下,值为KEYEVENTF_KEYUP则该按键被释放。
4. 小结
本节课程我们主要学习了 pywin32 模块的使用。本节课程的重点如下:
- 了解pywin32模块作用及使用步骤;
- 掌握 pywin32模块实现Word文档转换PDF格式文件的方法;
相关推荐
- python入门到脱坑经典案例—清空列表
-
在Python中,清空列表是一个基础但重要的操作。clear()方法是最直接的方式,但还有其他方法也可以实现相同效果。以下是详细说明:1.使用clear()方法(Python3.3+推荐)...
- python中元组,列表,字典,集合删除项目方式的归纳
-
九三,君子终日乾乾,夕惕若,厉无咎。在使用python过程中会经常遇到这四种集合数据类型,今天就对这四种集合数据类型中删除项目的操作做个总结性的归纳。列表(List)是一种有序和可更改的集合。允许重复...
- Linux 下海量文件删除方法效率对比,最慢的竟然是 rm
-
Linux下海量文件删除方法效率对比,本次参赛选手一共6位,分别是:rm、find、findwithdelete、rsync、Python、Perl.首先建立50万个文件$testfor...
- 数据结构与算法——链式存储(链表)的插入及删除,
-
持续分享嵌入式技术,操作系统,算法,c语言/python等,欢迎小友关注支持上篇文章我们讲述了链表的基本概念及一些查找遍历的方法,本篇我们主要将一下链表的插入删除操作,以及采用堆栈方式如何创建链表。链...
- Python自动化:openpyxl写入数据,插入删除行列等基础操作
-
importopenpyxlwb=openpyxl.load_workbook("example1.xlsx")sh=wb['Sheet1']写入数据#...
- 在Linux下软件的安装与卸载(linux里的程序的安装与卸载命令)
-
通过apt安装/协助软件apt是AdvancedPackagingTool,是Linux下的一款安装包管理工具可以在终端中方便的安装/卸载/更新软件包命令使用格式:安装软件:sudoapt...
- Python 批量卸载关联包 pip-autoremove
-
pip工具在安装扩展包的时候会自动安装依赖的关联包,但是卸载时只删除单个包,无法卸载关联的包。pip-autoremove就是为了解决卸载关联包的问题。安装方法通过下面的命令安装:pipinsta...
- 用Python在Word文档中插入和删除文本框
-
在当今自动化办公需求日益增长的背景下,通过编程手段动态管理Word文档中的文本框元素已成为提升工作效率的关键技术路径。文本框作为文档排版中灵活的内容容器,既能承载多模态信息(如文字、图像),又可实现独...
- Python 从列表中删除值的多种实用方法详解
-
#Python从列表中删除值的多种实用方法详解在Python编程中,列表(List)是一种常用的数据结构,具有动态可变的特性。当我们需要从列表中删除元素时,根据不同的场景(如按值删除、按索引删除、...
- Python 中的前缀删除操作全指南(python删除前导0)
-
1.字符串前缀删除1.1使用内置方法Python提供了几种内置方法来处理字符串前缀的删除:#1.使用removeprefix()方法(Python3.9+)text="...
- 每天学点Python知识:如何删除空白
-
在Python中,删除空白可以分为几种不同的情况,常见的是针对字符串或列表中空白字符的处理。一、删除字符串中的空白1.删除字符串两端的空白(空格、\t、\n等)使用.strip()方法:s...
- Linux系统自带Python2&yum的卸载及重装
-
写在前面事情的起因是我昨天在测试Linux安装Python3的shell脚本时,需要卸载Python3重新安装一遍。但是通过如下命令卸载python3时,少写了个3,不小心将系统自带的python2也...
- 如何使用Python将多个excel文件数据快速汇总?
-
在数据分析和处理的过程中,Excel文件是我们经常会遇到的数据格式之一。本文将通过一个具体的示例,展示如何使用Python和Pandas库来读取、合并和处理多个Excel文件的数据,并最终生成一个包含...
- 【第三弹】用Python实现Excel的vlookup功能
-
今天继续用pandas实现Excel的vlookup功能,假设我们的2个表长成这样:我们希望把Sheet2的部门匹在Sheet1的最后一列。话不多说,先上代码:importpandasaspd...
- python中pandas读取excel单列及连续多列数据
-
案例:想获取test.xls中C列、H列以后(当H列后列数未知时)的所有数据。importpandasaspdfile_name=r'D:\test.xls'#表格绝对...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python自定义函数 (53)
- python进度条 (67)
- python吧 (67)
- python字典遍历 (54)
- python的for循环 (65)
- python格式化字符串 (61)
- python串口编程 (60)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python字典增加键值对 (53)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python人脸识别 (54)
- python多态 (60)
- python命令行参数 (53)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)