python爬虫公众号所有信息,并批量下载公众号视频
off999 2024-12-01 02:22 33 浏览 0 评论
前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
主要功能
- 如何简单爬虫微信公众号
- 获取信息:标题、摘要、封面、文章地址
- 自动批量下载公众号内的视频
一、获取公众号信息:标题、摘要、封面、文章URL
操作步骤:
1、先自己申请一个公众号 2、登录自己的账号,新建文章图文,点击超链接
代码
1 import re
2 ?
3 import requests
4 import jsonpath
5 import json
6 ?
7 headers = {
8 "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
9 "Host": "mp.weixin.qq.com",
10 "Referer": "https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&type=10&isMul=1&isNew=1&lang=zh_CN&token=1862390040",
11 "Cookie": "自己获取信息时的cookie"
12 }
13 ?
14 def getInfo():
15 for i in range(80):
16 # token random 需要要自己的 begin:参数传入
17 url = "https://mp.weixin.qq.com/cgi-bin/appmsg?token=1904193044&lang=zh_CN&f=json&ajax=1&random=0.9468236563826882&action=list_ex&begin={}&count=5&query=&fakeid=MzI4MzkzMTc3OA%3D%3D&type=9".format(str(i * 5))
18 ?
19 response = requests.get(url, headers = headers)
20 ?
21 jsonRes = response.json()
22 ?
23 ?
24 titleList = jsonpath.jsonpath(jsonRes, "$..title")
25 coverList = jsonpath.jsonpath(jsonRes, "$..cover")
26 urlList = jsonpath.jsonpath(jsonRes, "$..link")
27 ?
28 # 遍历 构造可存储字符串
29 for index in range(len(titleList)):
30 title = titleList[index]
31 cover = coverList[index]
32 url = urlList[index]
33 ?
34 scvStr = "%s,%s, %s,\n" % (title, cover, url)
35 with open("info.csv", "a+", encoding="gbk", newline='') as f:
36 f.write(scvStr)获取结果(成功):
二、获取文章内视频:实现批量下载
通过对单篇视频文章分析,我找到了这个链接:
通过网页打开发现,是视频的网页下载链接:
哎,好像有点意思了,找到了视频的网页纯下载链接,那就开始吧。
发现链接里的有一个关键参数vid 不知道哪来的? 和获取到的其他信息也没有关系,那就只能硬来了。
通过对单文章的url请求信息里发现了这个参数,然后进行获取。
1 response = requests.get(url_wxv, headers=headers)
2 ?
3 # 我用的是正则,也可以使用xpath
4 jsonRes = response.text # 匹配:wxv_1105179750743556096
5 dirRe = r"wxv_.{19}"
6 result = re.search(dirRe, jsonRes)
7 ?
8 wxv = result.group(0)
9 print(wxv)
视频下载:
1 def getVideo(video_title, url_wxv):
2 video_path = './videoFiles/' + video_title + ".mp4"
3 ?
4 # 页面可下载形式
5 video_url_temp = "https://mp.weixin.qq.com/mp/videoplayer?action=get_mp_video_play_url&preview=0&__biz=MzI4MzkzMTc3OA==&mid=2247488495&idx=4&vid=" + wxv
6 response = requests.get(video_url_temp, headers=headers)
7 content = response.content.decode()
8 content = json.loads(content)
9 url_info = content.get("url_info")
10 video_url2 = url_info[0].get("url")
11 print(video_url2)
12 ?
13 # 请求要下载的url地址
14 html = requests.get(video_url2)
15 # content返回的是bytes型也就是二进制的数据。
16 html = html.content
17 with open(video_path, 'wb') as f:
18 f.write(html)
那么所有信息就都完成了,进行code组装。
a、获取公众号信息
b、筛选单篇文章信息
c、获取vid信息
d、拼接视频页面下载URL
e、下载视频,保存
代码实验结果:
.最后,小编想说:我是一名python开发工程师,整理了一套最新的python系统学习教程,想要这些资料的可以关注私信小编“01”即可,希望能对你有所帮助。
相关推荐
- 华硕驱动下载专区(华硕官方驱动)
-
从华硕官网下载原装系统可以按以下步骤进行:1.打开华硕官网:https://www.asus.com/cn/。2.将鼠标移动到“支持”菜单上,并点击“驱动与工具”。3.在页面中找到“操作系统”选...
- 黑客教你破解wifi密码(黑客教你破解wifi密码是多少)
-
黑客是利用wifi的拼码,或者路由器的加密不强破解的,高级的黑客,在很短的时间内就可以破解密码繁杂的wifi你是用了别人的软件吧太相信别人了什么黑客。带一堆模块的玩意儿也叫黑客?黑客和骇客是两...
- 高仿ios主题全套软件(超高仿ios安卓主题)
-
IPhone12启动器全套仿Ios12桌面主题是一款能够让大家的安卓手机秒变苹果机的系统工具,IPhone12启动器可让你的手机直接变成IPhone12的桌面。从主题,桌面,Ui以及系统内的各种细节,...
- win10在哪里下载软件最好(win10软件在哪下载比较好)
-
1、点击Win10系统的开始菜单,然后在点击应用商店;2、打开Win10应用商店后,在搜索框里输入想要搜索的应用软件,然后点击检索;3、点击搜索到的应用,点击安装;4、点击安装后,系统会提示要切换到这...
- 电脑软件怎么安装(电脑软件怎么安装到手机上)
-
电脑怎么安装excel软件方法/步骤:1.在电脑左下角找到这个小圆圈,单击小圆圈打开搜索栏。搜索MicrosoftStore。2.在右上角找到搜索,单击搜索。在搜索中输入Excel。回车键打开。3....
- u盘win7系统安装盘(u盘里安装win7系统)
-
有些软件我们从网上下载安装时需要破解密码或者我们没有网时,直接需要把安装的软件,传到别的电脑,具体操作如下:1。直接把另一台电脑桌面上的软件复制或发送的优盘里,其实那只是一个快捷方式2.以ps软件为例...
- 语音输入法哪个好用(语音输入法免费版下载安装)
-
日常基本使用的讯飞和搜狗都还不错,对比来看的话,讯飞相对会更好一些。讯飞输入法在键盘输入方面进步非常快,功能也比较全面。单纯的语音方面,讯飞的稍微好一点,例如一些标点、断句之类处理的更加到位。讯飞支持...
- 手机app应用市场(手机里面的应用市场)
-
360手机助手是android智能手机的手机管理专家。提供海量的游戏、软件、音乐、小说、视频、图片,通过它轻松下载、安装、管理手机资源。所有提供信息资源,全部经过360安全检测中心的审核认证,绿色无毒...
-
- 开局最强系统(开局最强系统txt奇书网)
-
《最强奶爸系统》作者:最美猪猪小说简介同学甲:“我找到了月入七千的工作。”同学乙:“我找到了月入一万的工作。叶辰,你呢?”叶辰:“我老婆…是万亿市值超凡集团的老板,给我生了10个孩子。”同学们:???叶辰遭前女友陷害,阴差阳错邂逅了一位美女...
-
2026-01-03 07:03 off999
- win10系统下载器官网(下载windows10官方)
-
如果您想要在Windows10上下载游戏辅助,可以按照以下步骤进行:1.打开您选择的游戏辅助下载网站,例如:GameCopyWorld或MegaGames。这些网站提供许多破解游戏的补丁和辅助工具...
- photoshop官方网站进入(photoshop官网入口)
-
那是因为网站采用了安全加密技术,安装了SSL证书,说明此网站为安全的页面,其信息已经经过加密措施。显示https的网站,网址上还会有显示一个小锁头,也是安全标志。1.先用Photoshop做一个网页图...
- windows7旗舰版主机多少钱(windows7旗舰版电脑多少钱一台)
-
其实这两个版本没有太大的差别,只是功能上有少量差别,旗舰版服务开启的要比专业版本服务开启的多几个,至于朋友们说的专业快速度比旗舰版快,或旗舰版比专业版速度快,个人认为速度都是一样只是功能上的差别,如果...
- 小米平板(小米平板怎么分屏)
-
小米平板的简单使用方法:1、首先给小米平板给充电,确保电量充足。2、长按住电源键启动小米平板,进入设备初始设置界面。3、根据屏幕上的提示信息,设置平板电脑联网、绑定小米账号等,直到完成即可正常使用了。...
- 移动硬盘一直在加载无法读取
-
移动硬盘电源灯亮说明硬盘有供电,无法识别此移动硬盘时,可按如下步骤进行排查:1)将移动硬盘拔下后,更换硬盘盒再接上确认。2)更换过硬盘盒还是无法识别的话,移动硬盘就损坏了,需要进行更换;3)若更换过硬...
- 下载软件的app大全(下载软件的app大全免费)
-
中国最常见的目前是迅雷下载软件。官网可以下载到正常的免费版本。他支持ftphttpbt磁力链接等多种形式的下载。国外的有bitcome。电驴和电骡等多种形式的下载软件。他们都可以满足日常的下载要求,...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
