Python自动化之Docx文档处理(一)(python办公自动化word)
off999 2025-07-07 22:17 3 浏览 0 评论
1 基本概念
1.1python-docx模块
相信大家在日常工作中,免不了要处理word文档,今天就介绍一个能通过python处理word文档的模块,python-docx[1]。
安装python-docx模块
pip install python-docx
然后通过官方的python代码例子来了解python-docx的功能
from docx import Document
from docx.shared import Inches
document = Document()
document.add_heading('Document Title' , 0)
p = document.add_paragraph('A plain paragraph having some')
p.add_run('bold').bold = True
p.add_run(' and some ')
p.add_run('italic.').italic = True
document.add_heading('Heading, level 1', level=1)
document.add_paragraph('Intense quote', style='Intense Quote')
document.add_paragraph(
'first item in unordered list', style='List Bullet'
)
document.add_paragraph(
'first item in ordered list', style='List Number'
)
#document.add_picture('touxiang.jpg', width=Inches(1.25))
records = (
(3, '101', 'Spam'),
(7, '422', 'Eggs'),
(4, '631', 'Spam, spam, eggs, and spam')
)
table = document.add_table(rows=1, cols=3)
hdr_cells = table.rows[0].cells
hdr_cells[0].text = 'Qty'
hdr_cells[1].text = 'Id'
hdr_cells[2].text = 'Desc'
for qty, id, desc in records:
row_cells = table.add_row().cells
row_cells[0].text = str(qty)
row_cells[1].text = id
row_cells[2].text = desc
document.add_page_break()
document.save('singless.docx')
代码解析
- document = Document():打开一个基于默认模板的空白文档
- add_heading:增加标题函数,text用于定义标题名,level表示标题等级。标题等级限制在0~9。
- add_paragraph:新增段落,style指定段落前的编号类似。List Bullet 2表示2级无序段落。List Number 2表示2级有序段落[2]。
- add_run:往段落后添加内容。该函数有两个属性,bold和.italic,作用分别是加粗和使用斜体。注意添加文本时可以按需要在文本前后要添加空格,add_run不会自动添加空格。
- add_picture:新增图片,width指定宽度、height指定高度。指定高度和宽度需要从docx.shared中导入Inches
- add_table:创建一个表格,rows为行, cols为列
- table.rows[0].cells:读取第一行的所有内容。下标从0开始。table.rows[0]表示第一行,cells用来获取第一行中的所有单元格。要确定表格有几行几列可以通过len函数来确认。len(table.rows)、len(table.columns)
- hdr_cells[0].text:前面已经把第一行赋值给了hdr_cells,text可以用来填充单元格里的内容。这里的hdr_cell[0]指第一行的第一列
- add_row:新增一行
- add_page_break:新增一个分页符
- save:保存word文档
运行代码,该文档最终展现形式如下
2 段落操作
word操作,最多的就是对段落的操作,下面介绍下一些常用的操作在python中如何实现。
2.1 字体格式调整
我们直接通过python代码进行演示如何调整字体格式,字体颜色等
from docx import Document
from docx.enum.text import *
from docx.oxml.ns import qn
from docx.shared import Pt, RGBColor
from docx.text.paragraph import Paragraph
doc = Document()
paragraph1 = doc.add_paragraph("这是第1个段落")
run1 = paragraph1.add_run(" 追加的文字")
run1.bold = True # 加粗
run1.italic = True # 斜体
run1.underline = True # 下划线
paragraph2 = doc.add_paragraph("这是第2个段落")
run2 = paragraph2.add_run(" 这是第2段追加的文字")
run2.font.name = "Times New Roman" # 将段落里的西文设置为新罗马字体
run2.element.rPr.rFonts.set(qn('w:eastAsia'), '宋体') # 设置段落中的中文为宋体
run2.font.size = Pt(30) # 字体大小
run2.font.bold = False # 是否加粗
run2.font.italic = False # 是否斜体
run2.font.underline = False # 是否下划线
paragraph3 = doc.add_paragraph("这是第3个段落")
run3 = paragraph3.add_run(" 这是第3段追加的文字")
run3.font.shadow = True # 是否阴影
run3.font.strike = True # 是否删除线
# run.font.double_strike = True # 是否双删除线
run3.font.color.rgb = RGBColor(56, 36, 255) # 字体颜色
# run1.font.color.rgb = RGBColor.from_string("ff0056") # 字体颜色
run3.font.highlight_color = WD_COLOR_INDEX.YELLOW # 文本高亮颜色,此次设置为黄色
doc.save('singless1.docx')
运行代码后,word文档效果如下
2.2 段落格式调整
首行缩进,行间距,段前段后距离调整
from docx import Document
from docx.oxml.ns import qn
from docx.shared import Pt
document = Document()
paragraph1 = document.add_paragraph()
# paragraph.line_spacing_rule = WD_LINE_SPACING.EXACTLY # 行距固定值
# paragraph.line_spacing_rule = WD_LINE_SPACING.MULTIPLE # 多倍行距
# paragraph1.paragraph_format.line_spacing = 1.5 # 行间距,1.5倍行距
paragraph1.style.font.size = Pt(10.5) ##设置字体大小为10.5磅
paragraph1.paragraph_format.first_line_indent = paragraph1.style.font.size * 2 ##首行缩进两个字符
paragraph1.paragraph_format.line_spacing = Pt(20) # 行间距,固定值20磅
paragraph1.paragraph_format.first_line_indent = Pt(22) # 首行缩进22磅
paragraph1.paragraph_format.space_before = Pt(30) # 段前30磅
paragraph1.paragraph_format.space_after = Pt(15) # 段后15磅
run1 = paragraph1.add_run("美猴王享乐天真,何期有三五百载。一日,与群猴喜宴之间,忽然忧恼,堕下泪来。众猴慌忙罗拜道,“大王何为烦恼?”猴王道,“我虽在欢喜之时,却有一点儿远虑,故此烦恼。”")
run1.font.name = "Times New Roman" # 设置西文是新罗马字体
run1.element.rPr.rFonts.set(qn('w:eastAsia'), '宋体') # 设置段落中的中文为宋体
paragraph2 = document.add_paragraph("众猴又笑道:“大王好不知足!我等日日欢会,在仙山福地,古洞神洲,不伏麟辖,不伏风凰管,又不伏人王拘末,自由自在,乃无量之福,为何远虑而忧也?”猴王道,“今日虽不归人王法律,不惧禽兽威服,将来年老血衰,暗中有间王老子管着,一旦身亡,可不枉生世界之中,不得久注天人之内?”")
document.save('singless2.docx')
运行结果如下
段落对齐,左、右对齐、居中对齐
from docx import Document
from docx.enum.text import *
document = Document()
paragraph1 = document.add_paragraph("这是居中对齐段落")
paragraph1.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER # 居中对齐
document.add_paragraph("这是左对齐段落").alignment = WD_PARAGRAPH_ALIGNMENT.LEFT # 左对齐
document.add_paragraph("这是右对齐段落").alignment = WD_PARAGRAPH_ALIGNMENT.RIGHT # 右对齐
document.add_paragraph("这是两端对齐段落").alignment = WD_PARAGRAPH_ALIGNMENT.JUSTIFY # 两端对齐
document.add_paragraph("这是分散对齐段落").alignment = WD_PARAGRAPH_ALIGNMENT.DISTRIBUTE # 分散对齐
document.save('singless3.docx')
运行结果如下
运行通过上面两个例子,我们了解了如何通过python代码完成对docx文档的常见操作。不过平常我们更常会遇到的场景可能是建立一个word模板,将通过python对数据进行处理填充到模板中,下一节介绍如何创建模板,并通过python填充数据。
3 参考资料
- [1]https://python-docx.readthedocs.io/en/latest/user/quickstart.html
- [2] https://python-docx.readthedocs.io/en/latest/user/styles-understanding.html
关注公众号 singless,获取更多有价值的文章
相关推荐
- 用Python编制生成4位数字字母混合验证码
-
我们登录一些网站、APP的时候经常会有验证码,这个为了防止有人不停的去试探密码,还有发送短信验证之前,输入验证码就可以减少误点,错误操作等等。可以提高安全性,我们可以生成数字,也可以生成字母,也可...
- Python电子发票管理工具4:前后端业务逻辑实现
-
用一系列文章介绍如何用python写一个发票管理小工具。在前面的文章中前端页面和后端框架已经实现,本文将介绍功能实现的代码。数据库操作使用sqlalchemy操作sqlite数据库。sqlalchem...
- 【代码抠图】4行Python代码帮你消除图片背景
-
在修图工具满天飞的年代其实仍然还有很多人不会扣图(比如我),在很多需要去除某些照片上面的背景的时候就会很难受,所以今天就给不会扣图的小伙伴们来带一个简单的代码扣图教程,只需要4行代码,不用再多了。准备...
- Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
Python3.14重磅更新!UUIDv6/v7/v8强势来袭,别再用uuid4()啦!为什么说UUID升级是2025年Python开发者的必学技能?在当今互联网应用中,UU...
- 殊途同归 python 第 4 节:有趣的键值对(字典)
-
字典数据的突出特点就是“键”和“值”,前文已经简单介绍过,本文来聊聊关于字典的几个高级玩法。1.函数打包后,通过键来调用globalf1,f2a={"k1":f1,"k2...
- 更有效地使用 Python Pandas 的 4 个技巧
-
一个简单而实用的指南照片由simonsun在Unsplash上拍摄Pandas是一个用于数据分析和操作任务的非常实用且功能强大的库。自2019年以来,我一直在使用Pandas,它始终能够为我...
- 4.python学习笔记-集合(python里面集合)
-
1.关于集合集合是一类元素无序不重复的数据结构,常用场景是元素去重和集合运算。python可以使用大括号{}或者set()函数创建集合,如果创建一个空集合必须用set()而不是{},因为{}是用来表示...
- python生成4种UUID(python随机生成uuid)
-
总结了一份python生成4种UUID的代码:UUID用4种uuid生成方法:uuid1:基于时间戳由MAC地址、当前时间戳、随机数字。保证全球范围内的唯一性。但是由于MAC地址使用会带来安全问题...
- 你不知道的4种方法:python方法绘制扇形
-
1说明:=====1.1是问答中的我的一个回答。1.1因为问答中没有代码块的,所以我改为这里写文章,然后链接过去。1.24种方法:turtle法、OpenCV法、pygame法和matplot...
- 30天学会Python编程:4. Python运算符与表达式
-
4.1运算符概述4.1.1运算符分类Python运算符可分为以下几大类:4.1.2运算符优先级表4-1Python运算符优先级(从高到低)运算符描述示例**指数2**3→8~+-按位取...
- 这3个高级Python函数,不能再被你忽略了
-
全文共1657字,预计学习时长3分钟Python其实也可以带来很多乐趣。重新审视一些一开始并不被人们熟知的内置函数并没有想象中那么难,但为什么要这么做呢?今天,本文就来仔细分析3个在日常工作中或多或少...
- beautifulSoup4,一个超实用的python库
-
一.前言我们在学习python爬虫的时候,数据提取是一个常见的任务。我们一般使用正则表达式,lxml等提取我们需要的数据,今天我们介绍一个新的库beautifulSoup4,使用它您可以从HTML和...
- AI指导:打造第一个Python应用(4)(python ai开发)
-
眼瞅着迈过几个里程碑,与目标越来越近。尽管过程中照旧因返工而心焦,而欣喜与急躁比例,是喜悦运大于焦虑。从初次熟悉智能大模型,尝试编程起步,不定期进行复盘反思,这是小助手指导编程的第四篇。复盘以为记。需...
- wxPython 4.2.0终于发布了(wxpython安装教程)
-
wxPython是Python语言的跨平台GUI工具包。使用wxPython,软件开发人员可以为他们的Python应用程序创建真正的本地用户界面,这些应用程序在Windows、Ma...
- 《Python学习手册(第4版)》PDF开放下载,建议收藏
-
书籍简介如果你想动手编写高效、高质量并且很容易与其他语言和工具集成的代码,本书将快速地帮助你利用Python提高效率。本书基于Python专家的流程培训课程编写,内容通俗易懂。本书包含很多注释的例子和...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python字典遍历 (54)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (60)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)