办公自动化案例三(Python 使用openpyxl读取EXCEL)
off999 2024-10-08 06:15 19 浏览 0 评论
本文介绍了Python的openpyxl库,用于读取Excel文件,获取sheet、单元格操作。openpyxl支持xlsx格式,不支持xls,适用于大部分Excel操作需求。即使电脑中没有安装微软的Excel,也可以操作表格。
起因:财务人员又找来说,想把分割的文件,按照excel里写的规则进行保留,其它的则不需要保留。
一、架构设计
- 在我们之前做的GUI界面上,添加一个指定excel位置的控件。
- 将指定的excel记录的规则读取
- 在保存分割的pdf时,根据读取的规则进行保存
代码实现
接下来,我们来看一下实现上面的需求。
首先,我们先来将GUI图形界面改造一下,效果如下图所示:
代码如下:
import os
import time
from tkinter import filedialog
import tkinter as tk
from tkinter import messagebox
import PyPDF2
root = tk.Tk()
root.geometry('600x300+550+200')
root.title('PDF处理工具')
page = tk.Frame()
page.pack()
text = tk.StringVar()
text2 = tk.StringVar()
# 界面浏览的文件路径和存储路径
def select_folder(sstr):
filepath = filedialog.askdirectory()
index = 0
if filepath == "" :
messagebox.showinfo(title="PDF处理", message="该目录下文件为空,请重新选择目录")
else:
if sstr == "1":
entry.delete(0, tk.END) # 清除文本框中的内容
entry.insert(0, filepath) # 插入新的文本内容
else:
entry2.delete(0, tk.END) # 清除文本框中的内容
entry2.insert(0, filepath) # 插入新的文本内容
# 获取所有pdf文件
def get_pdf_files(directory):
pdf_files = []
for file in os.listdir(directory):
if file.endswith(".pdf"):
pdf_files.append(os.path.join(directory, file))
return pdf_files
# 分割pdf文件
def split_pdf(file_path):
pdf = PyPDF2.PdfReader(file_path)
output_files = []
for i in range(len(pdf.pages)):
page = pdf.pages[i]
page_text = page.extract_text()
vallist = page_text.split(" ")
output_pdf = PyPDF2.PdfWriter()
output_pdf.add_page(page)
# 特殊命名规则
#自已获取pdf的内容
output_file_path = f"{cname}_{cdate}_{ccode}.pdf"
if output_file_path in output_files:
timestamp = time.time()
output_file_path = output_file_path.replace(".pdf","_" + str(timestamp) + ".pdf")
with open(output_file_path, "wb") as output_file:
output_pdf.write(output_file)
output_files.append(output_file_path)
return output_files
# 存储文件
def save_output_files(output_files, output_directory):
for file in output_files:
file_name = os.path.basename(file)
output_path = os.path.join(output_directory, file_name)
os.rename(file, output_path)
def select_file():
filepath2 = filedialog.askopenfile()
print(filepath2)
# 执行处理
def executor():
filepath = entry.get()
filepath2 = entry2.get()
pdf_files = get_pdf_files(filepath)
for file in pdf_files:
output_files = split_pdf(file)
save_output_files(output_files, filepath2)
messagebox.showinfo(title='PDF处理', message='处理完成!')
# GUI
tk.Label(page).grid(row=0, column=1)
tk.Label(page, text='待处理文件夹:', font=('华文楷体', 15)).grid(row=2, column=1, pady=10, padx=10)
entry = tk.Entry(page, textvariable=text, width=45)
entry.grid(row=2, column=2, padx=10)
tk.Button(page, text='浏览...', font=('华文楷体', 12), width=5, height=1, command=lambda: select_folder("1")).grid(
row=2,
column=3)
tk.Label(page, text='存储文件夹:', font=('华文楷体', 15)).grid(row=3, column=1, pady=10, padx=10)
entry2 = tk.Entry(page, textvariable=text2, width=45)
entry2.grid(row=3, column=2, padx=10)
tk.Button(page, text='浏览...', font=('华文楷体', 12), width=5, height=1, command=lambda: select_folder("2")).grid(
row=3,
column=3)
tk.Label(page, text='参考文件:', font=('华文楷体', 15)).grid(row=4, column=1, pady=10, padx=10)
entry3 = tk.Entry(page, textvariable=text, width=45)
entry3.grid(row=4, column=2, padx=10)
tk.Button(page, text='浏览...', font=('华文楷体', 12), width=5, height=1, command=select_file).grid(
row=4,
column=3)
tk.Button(page, text='执行', font=('华文楷体', 15), command=executor).grid(row=5, column=2)
root.mainloop()
读取excel
def read_excel(spath):
file_list = []
kw_list = []
wb2 = load_workbook(spath)
ws2 = wb2['Sheet1']
max_row = ws2.max_row
for i in range(2, max_row):
ccname = ws2.cell(i, 1).value
ccdate = ws2.cell(i, 2).value
date = datetime.strptime(ccdate, "%Y-%m-%d")
formatted_date = date.strftime("%Y年%m月%d日")
cccode = ws2.cell(i, 3).value
ckeyword = ws2.cell(i, 9).value
sfname = f"{ccname}_{formatted_date}_{cccode}.pdf"
file_list.append(sfname)
if ckeyword != "" and ckeyword != None:
kw_list.append(ckeyword)
wb2.close()
return file_list, kw_list
将读取的excel的文件中的规则应用到文件分割方法里,代码如下:
# 分割pdf文件
def split_pdf(file_path,file_list,kw_list):
pdf = PyPDF2.PdfReader(file_path)
output_files = []
for i in range(len(pdf.pages)):
page = pdf.pages[i]
page_text = page.extract_text()
vallist = page_text.split(" ")
output_pdf = PyPDF2.PdfWriter()
output_pdf.add_page(page)
# 特殊命名规则
cdate = vallist[5].replace("\xa0", "")
cname = vallist[8].replace("\n核算单位:", "")
ccode = vallist[9].replace("凭证号:", "")
output_file_path = f"{cname}_{cdate}_{ccode}.pdf"
print(output_file_path)
f1 = False
f2 = False
# 符合关键字列表或在要保留的文件列中
for item in kw_list :
if item in page_text:
f1 = True
break
if output_file_path in file_list:
f2 = True
if f1 == True or f2 == True:
if output_file_path in output_files:
timestamp = time.time()
output_file_path = output_file_path.replace(".pdf", "_" + str(timestamp) + ".pdf")
with open(output_file_path, "wb") as output_file:
output_pdf.write(output_file)
output_files.append(output_file_path)
return output_files
运行效果
在GUI界面上设置上相关参数,如下图
执行完成
执行完成后,保存的效果如下图:
这样三步走下来,我们就完成了财务的需求。原本要拆分的PDF文件有10个,每个里面大约有5000左右的页面。经过大约一分钟的处理,就完成了他们本来要三天的工作。这样是自动化的好处。
相关推荐
- python基础模块三剑客:sys、os、shutil(增加示例代码)
-
注:上个篇由于不熟悉头条号编辑器,导致示例代码丢失。现在全部以图片的形式加回。有同学问了个问题:在python里如何复制、删除、重命名文件?有个同学知道os.system(),就回答说:os.syst...
- Python常用文件操作库使用详解(python 对文件操作)
-
Python生态系统提供了丰富的文件操作库,可以处理各种复杂的文件操作需求。本教程将介绍Python中最常用的文件操作库及其实际应用。一、标准库核心模块1.1os模块-操作系统接口主要功能:文件...
- 你知道Python 如何进行高效的代码重构吗?
-
点赞、收藏、加关注,下次找我不迷路写出高质量的代码是每个程序员的追求。而代码重构作为提升代码质量的重要手段,却常常被新手忽视。很多新手在编写代码时,只关注功能是否实现,却不注重代码的结构和可维护性,...
- Python常用内置模块介绍——文件与系统操作详解
-
Python提供了多个强大的内置模块用于文件和系统操作,下面我将详细介绍最常用的几个模块及其核心功能。1.os模块-操作系统交互os模块提供了与操作系统交互的接口,包括文件/目录操作、进程管理、环...
- Python的tarfile模块解压缩.tar/.tar.gz等文件
-
python中的标准库tarfile模块可以帮助我们快速压缩或者解压后缀为.tar/.tar.gz/.tar.bz2/.tar.xz的文件。01、tarfile核心类与函数介绍使用方法因为tarfil...
- 批量重命名工具,Bulk Rename Utility软件体验
-
平常在电脑上处理电子文件,经常在得到文件本身时,没有空闲和精力去为文件重命名,像是一张图片,要作为下一个步骤的素材。而处理完事过后就不理它了,顺手直接丢回收站或者放在硬盘里。但是想把文件存档和提交给上...
- 照片怎样重命名?方法有四种(照片怎么可以重命名)
-
照片怎样重命名?照片在我们日常生活中扮演着越来越重要的角色,但是有时候,我们需要对照片进行重命名,以便更好地组织和查找它们,这样也可以大大提高我们的效率。在这篇文章中,我们将介绍四种简单的方法,让你轻...
- 你需要批量创建文件夹并命名吗,给你推荐几个方法
-
小李是一家设计公司的项目经理,最近接了一个大项目,需要整理大量的设计稿。每个设计稿都需要单独创建一个文件夹,以方便团队成员协作。手动创建文件夹效率太低,而且容易出错。小李在网上搜索了各种方法,尝试了P...
- 怎样批量重命名一个工作簿中的所有工作表
-
上篇文章,Python数据的选取和处理,阅读量93,收藏15,没有评论。目前正在复习Python+Excel实现办公自动化,有兴趣的可以一起讨论,共同提高。花了近4个小时终于把6个分部的统计工作表做好...
- Windows如何批量修改文件后缀名(电脑如何批量修改文件后缀名)
-
在Windows系统中药批量修改文件后缀名的方式非常多,每个方法的优缺点各有不同,下面通过几个常见的方式给大家介绍下,Windows如何批量修改文件后缀名的。给有需要的朋友几个参考。方法一:使用文件资...
- Python3+ 变量命名全攻略:PEP8 规范 + 官方禁忌 + 实战技巧,全搞懂!
-
Python3+变量命名规则与约定详解一、官方命名规则(必须遵守)1.合法字符集变量名只能包含:大小写字母(a-z,A-Z)数字(0-9)下划线(_)2.禁止数字开头合法:user_age,...
- python代码实现读取文件并生成韦恩图
-
00、背景今天战略解码,有同学用韦恩图展示各个产品线的占比,效果不错。韦恩图(Venndiagram),是在集合论数学分支中,在不太严格的意义下用以表示集合的一种图解。它们用于展示在不同的事物群组之...
- python学习第二天:用Pycharm新建的第一个程序
-
分享第一次使用Pycharm学到的内容第一次打开得到上面图片projects:项目customize:自定义plugins:插件learn:学习newproject新建项目聪明如我在插件那里找到了汉...
- 如何编写第一个Python程序(python第一个代码)
-
一、第一个python程序[掌握]python:python解释器,将python代码解释成计算机认识的语言pycharm:IDE(集成开发环境),写代码的一个软件,集成了写代码,...
- Python文件读写操作详解:从基础到实战
-
Python文件的读写操作在Python中,文件操作非常常见,可以通过内建的open()函数进行文件的读取、写入、创建等操作。理解文件操作的模式和with语句对于确保代码的简洁性和效率至...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python字典遍历 (54)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python重命名文件 (54)
- python串口编程 (60)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python人脸识别 (54)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)