Python 语言中 PDF 文档的常见操作
off999 2025-05-08 04:35 17 浏览 0 评论
Python 可以对 PDF 文档进行多种操作,包括但不限于以下几种:
- 读取 PDF 内容:使用 PDF 解析库(如 PyPDF2、pdfplumber 和 fitz 等)可以读取 PDF 文档的文本内容,从而进行文本提取、搜索、分析等操作。这在需要对大量 PDF 文档进行自动化处理、数据挖掘、文本分析等场景中非常有用。
# get_pdf_text.py
# 简单使用了 PyPDF2、pdfplumber 和 fitz 包,
# 来分别获取 example.pdf 中文字部分的信息
# 安装依赖
# pip install PyPDF2
# pip install pdfplumber
# pip install pymupdf
# 运行脚本
# python get_pdf_text.py
import PyPDF2
with open('example.pdf', 'rb') as file:
reader = PyPDF2.PdfReader(file)
for page_num in range(len(reader.pages)):
page = reader.pages[page_num]
text = page.extract_text()
print(f'Page {page_num+1}: {text}')
import pdfplumber
with pdfplumber.open('example.pdf') as pdf:
for page_num in range(len(pdf.pages)):
page = pdf.pages[page_num]
text = page.extract_text()
print(f'Page {page_num+1}: {text}')
import fitz
with fitz.open('example.pdf') as doc:
for page_num in range(doc.page_count):
page = doc.load_page(page_num)
text = page.get_text("text")
print(f'Page {page_num+1}: {text}')
- 提取图像和图表:使用 PDF 解析库可以提取 PDF 文档中的图像和图表,用于图像处理、数据可视化、机器学习等任务。这对于从报告、文档中提取图像数据或生成图像摘要非常有用。
# get_pdf_image.py
# 运行脚本
# python get_pdf_image.py
import fitz
pdf = fitz.open('example.pdf')
for page_num in range(len(pdf)):
page = pdf[page_num]
image_list = page.get_images()
for image_index, img in enumerate(image_list):
xref = img[0]
base_image = pdf.extract_image(xref)
image_data = base_image["image"]
with open(f'image_{page_num}_{image_index}.png', 'wb') as file:
file.write(image_data)
# get_pdf_table.py
# 运行脚本
# python get_pdf_table.py
import pdfplumber
read_path = r'table.pdf'
pdf = pdfplumber.open(read_path)
for page in pdf.pages:
table = page.extract_table()
print(table)
- PDF加密和解密:使用 PDF 库可以对 PDF 文档进行加密和解密,保护文档的机密性。这对于保护敏感信息的 PDF 文档非常有用,如合同、报告等。
# crypt_decrpt_pdf.py
# 运行脚本
# python crypt_decrpt_pdf.py
import PyPDF2
# 加密 pdf
input_pdf = "table.pdf"
output_pdf = "encrypted.pdf"
password = "654321"
with open(input_pdf, "rb") as file:
pdf_reader = PyPDF2.PdfReader(file)
pdf_writer = PyPDF2.PdfWriter()
for page_num in range(len(pdf_reader.pages)):
pdf_writer.add_page(pdf_reader.pages[page_num])
pdf_writer.encrypt(password)
with open(output_pdf, "wb") as output:
pdf_writer.write(output)
# 解密 pdf
encrypted_pdf = "encrypted.pdf"
decrypted_pdf = "decrypted.pdf"
with open(encrypted_pdf, "rb") as file:
pdf_reader = PyPDF2.PdfReader(file)
pdf_writer = PyPDF2.PdfWriter()
if pdf_reader.is_encrypted:
pdf_reader.decrypt(password)
for page_num in range(len(pdf_reader.pages)):
pdf_writer.add_page(pdf_reader.pages[page_num])
with open(decrypted_pdf, "wb") as output:
pdf_writer.write(output)
这些操作使得 Python 在处理 PDF文档时非常灵活和强大,适用于各种场景,包括但不限于:自动化文档处理、数据挖掘和分析、报告生成、合同管理、电子书制作、数据收集和处理等。
相关推荐
- pip的使用及配置_pip怎么配置
-
要使用python必须要学会使用pip,pip的全称:packageinstallerforpython,也就是Python包管理工具,主要是对python的第三方库进行安装、更新、卸载等操作,...
- Anaconda下安装pytorch_anaconda下安装tensorflow
-
之前的文章介绍了tensorflow-gpu的安装方法,也介绍了许多基本的工具与使用方法,具体可以看Ubuntu快速安装tensorflow2.4的gpu版本。pytorch也是一个十分流行的机器学...
- Centos 7 64位安装 python3的教程
-
wgethttps://www.python.org/ftp/python/3.10.13/Python-3.10.13.tgz#下载指定版本软件安装包tar-xzfPython-3.10.1...
- 如何安装 pip 管理工具_pip安装详细步骤
-
如何安装pip管理工具方法一:yum方式安装Centos安装python3和python3-devel开发包>#yuminstallgcclibffi-develpy...
- Python入门——从开发环境搭建到hello world
-
一、Python解释器安装1、在windows下步骤1、下载安装包https://www.python.org/downloads/打开后选择【Downloads】->【Windows】小编是一...
- 生产环境中使用的十大 Python 设计模式
-
在软件开发的浩瀚世界中,设计模式如同指引方向的灯塔,为我们构建稳定、高效且易于维护的系统提供了经过验证的解决方案。对于Python开发者而言,理解和掌握这些模式,更是提升代码质量、加速开发进程的关...
- 如何创建和管理Python虚拟环境_python怎么创建虚拟环境
-
在Python开发中,虚拟环境是隔离项目依赖的关键工具。下面介绍创建和管理Python虚拟环境的主流方法。一、内置工具:venv(Python3.3+推荐)venv是Python标准...
- 初学者入门Python的第一步——环境搭建
-
Python如今成为零基础编程爱好者的首选学习语言,这和Python语言自身的强大功能和简单易学是分不开的。今天千锋武汉Python培训小编将带领Python零基础的初学者完成入门的第一步——环境搭建...
- 全网最简我的世界Minecraft搭建Python编程环境
-
这篇文章将给大家介绍一种在我的世界minecraft里搭建Python编程开发环境的操作方法。目前看起来应该是全网最简单的方法。搭建完成后,马上就可以利用python代码在我的世界自动创建很多有意思的...
- Python开发中的虚拟环境管理_python3虚拟环境
-
Python开发中,虚拟环境管理帮助隔离项目依赖,避免不同项目之间的依赖冲突。虚拟环境的作用隔离依赖:不同项目可能需要不同版本的库,虚拟环境可以为每个项目创建独立的环境。避免全局污染:全局安装的库可...
- Python内置zipfile模块:操作 ZIP 归档文件详解
-
一、知识导图二、知识讲解(一)zipfile模块概述zipfile模块是Python内置的用于操作ZIP归档文件的模块。它提供了创建、读取、写入、添加及列出ZIP文件的功能。(二)ZipFile类1....
- Python内置模块pydoc :文档生成器和在线帮助系统详解
-
一、引言在Python开发中,良好的文档是提高代码可读性和可维护性的关键。pydoc是Python自带的一个强大的文档生成器和在线帮助系统,它可以根据Python模块自动生成文档,并支持多种输出格式...
- Python sys模块使用教程_python system模块
-
1.知识导图2.sys模块概述2.1模块定义与作用sys模块是Python标准库中的一个内置模块,提供了与Python解释器及其环境交互的接口。它包含了许多与系统相关的变量和函数,可以用来控制P...
- Python Logging 模块完全解读_python logging详解
-
私信我,回复:学习,获取免费学习资源包。Python中的logging模块可以让你跟踪代码运行时的事件,当程序崩溃时可以查看日志并且发现是什么引发了错误。Log信息有内置的层级——调试(deb...
- 软件测试|Python logging模块怎么使用,你会了吗?
-
Pythonlogging模块使用在开发和维护Python应用程序时,日志记录是一项非常重要的任务。Python提供了内置的logging模块,它可以帮助我们方便地记录应用程序的运行时信息、错误和调...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)