牛逼!40行Python代码把html网页保存为pdf,太方便了
off999 2024-12-01 02:18 26 浏览 0 评论
最近临近开学了,大家都在忙着准备各种学习的资料,准备在新的学期好好学习,充实自己。小编身边的同学也是如此,最近,小编的同学小丽就遇到了一个很棘手的问题。
她想将一个网页的Python学习的教程打印下来,方便自己来学习,但是上千页的教程,如果通过手动的方式,一个一个的去转成pdf并保存到本地,实在是麻烦的不。
这就是一个html转pdf的问题,其实网上有很多不错的html资源,但是苦于学习起来,不方便!于是小编就跟小丽保证,这点小事包在我身上。今天,小编就跟分享一下如何用Python把html资料变成pdf。
01.抓取的学习资料
如今网上的在线学习资料可谓是多如牛毛,为了方便讲解,小编就利用python3.9.2的中文文档作为演示的例子,来将其抓取并保存到本地,其网页链接如下:
https://docs.python.org/zh-cn/3.9/tutorial/index.html
打开上述链接后,大家会在网页中找到不同内容的链接地址,包括了基础的python字符、python语法等内容。
02.获取网页链接
在上图中,我们需要格外关注的是红色方格标注的链接,每个链接都会跳转到对应的子网页中,而在子网页中,就是我们想要保存的内容。
可以看到,上图中,在python速览子页面中,包含了我们需要提取的文字内容。所以将html内容保存为pdf的第一步便是获取到子页面的链接。由于教程大都是固定内容,因此对于教程的网页,大都采用的是静态页面,在网页源代码中可以很轻松地找到子页面的网页链接。
对于子网页的链接抓取,程序如下图所示:
程序中,通过BeautifulSoup库来解析网页源代码,然后提取所有的子页面链接地址并返回,如果抓取失败,则直接返回None。
03.html转pdf
在得到子网页的链接后,接下来就是将html的子网页保存为pdf文件。小编使用的pdfkit库,pdfkit库可以将网页保存为pdf文档。首先小编来介绍一下pdfkit库的安装。
- 下载https://github.com/wkhtmltopdf/packaging/releases/download/0.12.6-1/wkhtmltox-0.12.6-1.mxe-cross-win64.7z 并解压到本地文件中。(后台输入:pdf) 直接获取。
- 将解压文件中的bin文件路径添加到系统变量Path中。
- 执行pip install pdfkit
- 执行pip install wkhtmltopdf
按照上述的操作流程,就可以安装pdfkit库。对于pdfkit库的使用,常见的用法有以下三种:
上面的程序主要完成以下几步:
首先需要指定wkhtmltopdf.exe文件的路径;
- 然后分别通过from_url、from_file和from_string的三种方式来保存为pdf文件;
- 需要注意的是,from_file和from_url中的第一个参数必须是一个html的字符串或者是html文档的列表;
- 但是小编通过程序运行发现,from_url第一个参数只能是html的字符串,不能是html的列表。
因此,pdfkit库只能将子网页保存为单独的pdf文档,无法直接通过pdfkit库将所有的子网页拼接成一个完整的pdf文档,小编通过PyPDF2库中的PdfFileMerger类来实现pdf文档的拼接。程序如下图所示。
程序中首先将所有的html网页保存为单独的pdf文档,然后通过PdfFileMerger类对象来实现pdf文档的拼接。最后就可以得到全部的pdf内容。最后我们通过视频的展示,来看一下程序的效果吧。
除此之外,程序不光可以抓取python3.9的中文文档,针对其他的在线文档,只需要对获取网页链接的程序进行修改即可抓取,例如对于Flask中文文档的抓取,程序只需要按照下图进行修改,即可将Flask的在线文档保存为PDF文档。
04.总结
学习Python其实非常有趣,也很有用。因为Python有大量的现成的库,可以帮助我们把工作中的很多琐碎的烦事轻松解决。小编将上述的程序稍加修改,很快就帮阿丽搞定了教程,保存为pdf发送给了她,小编与女神的关系更拉近了一步
相关推荐
- 小米平板1(小米平板1刷安卓10稳定版)
-
小米平板1有开发版。具体来说,小米平板1最初发布时,已经提供了一套完整的ROM(即”MIUI“系统)供用户使用,这套系统包含了越来越多的功能,以满足用户的需求。同时,小米也会发布一些针对开发人员的版本...
- 配置windows update已完成100%
-
楼主我的情况跟你类似我是删除了windows更新清理文件15g左右然后昨天删除之后正常关机,今天早上一来电脑开机然后就一直在“配置Windowsupdate已完成100%请勿关闭计算...
- 自己制作pe系统(自己制作pe系统最简单三个步骤)
-
1,在搜索框输入pe系统,下载pe的制作软件2,点击下载按钮3,安装完了以后一般会有个启动图标4,打开PE制作软件,插上U盘,软件会自动识别,点击开始制作按钮5,也可以点击高级设置按钮6,在高级界面可...
- 阿里云盘ios版(阿里云盘 安卓版)
-
阿里云盘目前是可以使用ipad的。iPad可以下载阿里云盘。阿里云盘是一款速度快、不打扰、够安全、易于分享的网盘,由阿里巴巴集团出品。阿里云盘最大的亮点就是全员不限速,曾公布“无论免费付费,未来都不...
- 惠普打印机怎么用(惠普打印机怎么用微信打印文件)
-
1、首先要确保打印机在电脑里的程序安装完成,以及数据线连接正常。2、将需要扫描的文件放置在打印机面板上,并盖好盖子。3、打开“我的电脑”,找到控制面板进入,锁定“硬件和声音”功能。点击“查看设备的打印...
- 老电脑装xp打不开网站(老电脑装xp打不开网站怎么回事)
-
原因分析及解决方法:1.宽带未连接。重新连接宽带。2.路由器故障。拆除路由器后,进行宽带连接试用。3.偶发性故障,如ADSL断流,电脑内存数据溢出等。重启电脑、modem试用。4.浏览器故障,应用不恰...
- win7系统破解激活工具(windows7破解激活)
-
方法如下:1、开机到欢迎界面时,按Ctrl+Alt+Delete,跳出帐号窗口,输入用户名:administrator,回车。2、如果这个帐号也有密码采用开机启动时按F8选“带命令行的安全模式”。...
- 怎么制作winpeu盘启动盘(制作winpe启动盘有什么作用)
-
我们应先理解U盘启动盘:简单理解就是用U盘启动盘代替电脑以前的光驱,所以它只有3个最基本的功能:1、帮助电脑正常启动。比如电脑无限在启动界面循环;2、格式化硬盘。格式化硬盘所有分区,再重新分区;3、重...
- 磁力搜索引擎入口(磁力搜索器引擎)
-
01.磁力熊磁力熊,是一个内容丰富、功能最为强大的一个磁力搜索网站,通过它不仅仅可以搜索到大量纯净的1080P高分电影,像一些比较小众的影视剧这里也都能找到。02.夕阳小站夕阳小站,虽然网站整体界面设...
- 手机变成安全模式怎么解除(手机变成安全模式是怎么回事)
-
解除比较安全模式的方法主要有三种:1、按电源键长按机器会弹出重启菜单,将手机重启即可解除比较安全模式。2、查询手机操作手册,进入设置里找到“比较安全模式”,可以改变比较安全模式的状态,即可解除比较安全...
-
- win7官方最小精简版(最小win7精简版系统239m)
-
推荐win7系统精简版一、雨林木风系统v1906雨林雨林木风GhostWin7SP1旗舰版一如既往注重稳定与安全,本次6月版本更新优化注册表增强系统运行效率,不对系统关键文件进行修改保证稳定性,关闭系统可能会感染病毒的端口,更新最新...
-
2026-01-11 14:51 off999
- 华硕牌子电脑怎么样(华硕牌子电脑怎么样值得买吗)
-
1、华硕笔记本电脑在市场上有很高的认知度和认可度。除了在零售市场有出色口碑外,在特殊领域华硕笔记本一样有惊人的表现;2、华硕笔记本电脑的优点在于它的主板性能好还有就是它的散热效果也不错,性能比较稳定;...
- 两个文件夹内容自动同步(两个文件夹内容自动同步,删除不了)
-
D:盘中点右键,新建公文包B,将文件夹A拖到公文包B中。如果以后文件夹A中的文件修改了,打开公文包B,点菜单上的“公文包、全部更新”。则公文包B就会自动更新文件,与文件夹A中的保持一致。这种方法可以有...
- 无法删除的文件夹怎么删(无法删除文件夹或文件的原因有哪些)
-
删除不了的软件、文件或文件夹的解决方法:1、开机按F8不动,到高级选项出现在松开手,用上下键选安全模式,按照提示进入到安全模式中删除即可(安全模式与正常模式操作一样)。2、如果使用其他办法无法删...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
