竟然可以用 Python 抓取公号文章保存成 PDF
off999 2024-12-01 02:18 21 浏览 0 评论
、
Python技术
人生苦短,我用 Python!
今天为大家介绍如何将自己喜欢的公众号的历史文章转成 PDF 保存到本地。前几天还有朋友再问,能不能帮把某某公众号的文章下载下来,因为他很喜欢这个号的文章,但由于微信上查看历史文章不能排序,一些较早期的文章翻很长时间才能找到,而且往往没有一次看不了几篇,下次还得再重头翻,想想就很痛苦。
抓取的思路
目前我在网上找了找,看到实现的方式大概分为以下三种:
- 通过手机和电脑相连,利用 Fiddler 抓包获取请求和返回报文,然后通过报文模拟请求实现批量下载。
- 通过搜狗浏览器或者用 wechatsogou 这个 Python 模块,去搜索公号后,实现批量下载。
- 通过公众号平台,这个需要你能登陆到公众号平台即可,剩下就比较简单。
整体来看最后一种方式是最简单的,接下来将以第三种方式为例,为大家介绍如何达到批量下载的目的。
获取 Cookie
首先我们登陆到公众号平台,登陆成功后会跳转到公众号管理首页,如下图:
然后我们在当前页面打开浏览器开发者工具,刷新下页面,在网络里就能看到各种请求,在这里我们点开一个请求 url,然后就能看到下图网络请求信息,里面包含请求的 Cookie 信息。
接下来我们需要把 Cookie 信息复制下来转换成 Json 格式串保存到文本文件里,以供后面请求链接时使用。这里需要写一段 Python 代码进行处理,新建文件 gen_cookies.py 写入代码如下:
# gen_cookies.pyimport json# 从浏览器中复制出来的 Cookie 字符串cookie_str = "pgv_pvid=9551991123; pac_uid=89sdjfklas; XWINDEXGREY=0; pgv_pvi=89273492834; tvfe_boss_uuid=lkjslkdf090; RK=lksdf900; ptcz=kjalsjdflkjklsjfdkljslkfdjljsdfk; ua_id=ioje9899fsndfklsdf-DKiowiekfjhsd0Dw=; h_uid=lkdlsodifsdf; mm_lang=zh_CN; ts_uid=0938450938405; mobileUV=98394jsdfjsd8sdf; \……中间部分省略 \ EXIV96Zg=sNOaZlBxE37T1tqbsOL/qzHBtiHUNZSxr6TMqpb8Z9k="cookie = {}# 遍历 cookie 信息for cookies in cookie_str.split("; "): cookie_item = cookies.split("=") cookie[cookie_item[0]] = cookie_item[1]# 将cookies写入到本地文件with open('cookie.txt', "w") as file: # 写入文件 file.write(json.dumps(cookie))好了,将 Cookie 写入文件后,接下来就来说下在哪里可以找到某公号的文章链接。
获取文章链接
在公号管理平台首页点击左侧素材管理菜单,进入素材管理页面,然后点击右侧的新建图文素材按钮,如下图:
进入新建图文素材页面,然后点击这里的超链接:
在编辑超链接的弹出框里,点击选择其他公众号的连接:
在这里我们就能通过搜索,输入关键字搜索我们想要找到公众号,比如在这里我们搜索 "Python 技术",就能看到如下搜索结果:
然后点击第一个 Python 技术的公众号,在这里我们就能看到这个公众号历史发布过的所有文章:
我们看到这里文章每页只显示五篇,一共分了31页,现在我们再打开自带的开发者工具,然后在列表下面点下一页的按钮,在网络中会看到向服务发送了一个请求,我们分析下这个请求的参数。
通过请求参数,我们大概可以分析出参数的意义, begin 是从第几篇文章开始,count是一次查出几篇,fakeId 对应这个公号的唯一 Id,token 是通过 Cookie 信息来获取的。好了,知道这些我们就可以用 Python 写段代码去遍历请求,新建文件 gzh_download.py,代码如下:
# gzh_download.py# 引入模块import requestsimport jsonimport reimport randomimport timeimport pdfkit# 打开 cookie.txtwith open("cookie.txt", "r") as file: cookie = file.read()cookies = json.loads(cookie)url = "https://mp.weixin.qq.com"#请求公号平台response = requests.get(url, cookies=cookies)# 从url中获取tokentoken = re.findall(r'token=(\d+)', str(response.url))[0]# 设置请求访问头信息headers = { "Referer": "https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit_v2&action=edit&isNew=1&type=10&token=" + token + "&lang=zh_CN", "Host": "mp.weixin.qq.com", "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36",}# 循环遍历前10页的文章for j in range(1, 10, 1): begin = (j-1)*5 # 请求当前页获取文章列表 requestUrl = "https://mp.weixin.qq.com/cgi-bin/appmsg?action=list_ex&begin="+str(begin)+"&count=5&fakeid=MzU1NDk2MzQyNg==&type=9&query=&token=" + token + "&lang=zh_CN&f=json&ajax=1" search_response = requests.get(requestUrl, cookies=cookies, headers=headers) # 获取到返回列表 Json 信息 re_text = search_response.json() list = re_text.get("app_msg_list") # 遍历当前页的文章列表 for i in list: # 将文章链接转换 pdf 下载到当前目录 pdfkit.from_url(i["link"], i["title"] + ".pdf") # 过快请求可能会被微信问候,这里进行10秒等待 time.sleep(10)好了,就上面这点代码就够了,这里在将 URL 转成 PDF 时使用的是 pdfkit 的模块,使用这个需要先安装 wkhtmltopdf 这个工具,官网地址在文末给出,支持多操作系统,自己下载安装即可,这里就不再赘述。
安装完后,还需要再执行 pip3 install pdfkit 命令安装这个模块。安装好了,现在来执行下 python gzh_download.py 命令启动程序看下效果怎么样。
看来是成功了,这个工具还是很强大的。
总结
本文为大家介绍了如何通过分析公众号平台的功能,找到可以访问到某个公众号所有文章的链接,从而可以批量下载某公众号所有文章,并转为 PDF 格式保存到本地的目的。这里通过 Python 写了少量代码就实现文章的抓取和转换的工作,如果有兴趣你也可以试试。
python学习资料获取方式
右上角点击关注
评论区任意评论或者转发一下
做完1、2步,私信回复“学习”
私信不要多字,不要少字,不要错字,私信方法:点击我头像,进入主页面,右上角有私信功能,在关注的上方位置。
相关推荐
- 暴风激活工具激活不了(暴风激活工具激活不了office)
-
本人认为是安全的,原因如下:(1)跟其他激活工具相比,它体积最小!会干闲事的工具,其代码会较多,因此体积一般也较大;(2)能离线激活!在众多工具中,暴风激活工具是离线激活的.若体积小还...
- 笔记本电脑连接上wifi却不能上网
-
1、鼠标右键我的电脑(计算机,win8里叫这台电脑),然后再点击管理。2、进入管理列表后,点击服务和应用程序,在点击里面的服务。在服务中找到WLANAutoConfig,把这个服务改为自动,并且点...
- 安卓商店下载(安卓商店下载安装到手机)
-
要限制华为iPad上的下载,您可以按照以下步骤进行操作:首先,打开设置菜单,然后选择应用和通知。在应用和通知菜单中,您可以找到已安装的应用程序列表。选择您想要限制下载的应用程序,然后点击它。在应用程序...
- 电脑软件开机自启动怎么设置
-
1、首先找到自己华硕笔记本,然后把笔记本翻开,可以看到键盘的这一面,右上角有一个比较大的按钮(不同型号不一样),然后点击一下即可成功开机。2、点击开机按钮之后,可以看到笔记本的桌面出现了一个华硕log...
- 手机双系统怎么切换(oppo手机双系统怎么切换)
-
realmeQ3有系统分身功能打开设置,直接到搜索栏搜索系统分身并开启,就可以开启系统分身功能了,设置系统分身时会请用户另外设置一个不同于主系统的密码,锁屏后解锁时输入主系统密码进入主系统,输入分身...
- ie10浏览器官网入口(ie8_11浏览器官网)
-
在Windows10系统中,您可以按照以下步骤找到InternetExplorer(IE)浏览器:1.点击左下角的“开始”按钮。2.在弹出的菜单中,选择“设置”。3.在“系统”选项卡中,...
- win10安装版非ghost(u盘安装win10非ghost)
-
建议不要在DOS环境下进行分区,这样的技术其实已经很久没有更新了,比如盘符显示乱码等等等等。建议进入PE环境进行分区操作,这样在引导错误时能够有专门的工具修复。我在此强力建议不要使用GHOST系统,虽...
- win10关闭自动更新方法联想(联想笔记本关闭win10自动更新)
-
方法一鼠标单击左下角的开始菜单,选择设置;点击更新和安全;在默认界面,点击右侧的高级选项;将更新选项与更新通知下的所有选项关闭即可。方法二鼠标右键单击此电脑,选择管理;进入计算机管理界面,点击展开“服...
- 改wifi密码的网址(wifi改密码网站)
-
WiFi官方密码忘记了,用手机修改的话需要有相关的软件账号的登录才行,否则的话是无法登录进去进行密码的修改的,此外如果这个WiFi的话不是个人的WiFi应用,而是一个区域,或者说是平台的WiFi官方...
- 微星主板bios怎么进u盘装系统
-
一:首先将已经使用U启动软件制作好启动盘的U盘插入电脑主机后面的USB插口处,(注意:请不要用USB延长线来连接U盘,可能会造成无法读取U盘的情况!),然后开机启动计算机,待显示开机画面的时候连续按下...
- windows运行启动项命令(windows如何启动运行)
-
1、鼠标右击“windows”键可以在其中找到“运行”栏。2、通过“运行”栏可以弹出窗口,在窗口中输入要运行的程序,比如命令行输入“cmd”。3、通过“cmd”即可进入windows命令行,在其中可以...
- 万能wifi钥匙手机版(万能wifi钥匙手机版 哪种比较好用)
-
就是通过WiFi万能钥匙,可以不用密码,连接室外的共享WIFI。最基本功能就是WiFi共享。一般的WiFi密码可以用万能钥匙解开,用之前要打开数据流量获取一下地理位置。WiFi万能钥匙并不万能,别再相...
-
- 如何更改电脑屏幕亮度(更改电脑屏幕亮度win10)
-
系统:win71打开电脑,单击鼠标右键,出现菜单后,点击个性化2进入个性化,点击左下角的显示图标3进去显示页面,点击左侧的调整亮度4在下方有一个亮度调节条,鼠标左键按住调节条上面的框,向左拖,屏幕就会调暗,向右拖,屏幕就会调亮了。首先看一下...
-
2025-11-15 14:03 off999
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
慕ke 前端工程师2024「完整」
-
失业程序员复习python笔记——条件与循环
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
