40行代码教你利用Python网络爬虫批量抓取小视频
off999 2024-12-06 18:13 16 浏览 0 评论
/1 前言/
还在为在线看小视频缓存慢发愁吗?还在为想重新回味优秀作品但找不到资源而忧虑吗?莫要慌,让python来帮你解决,40行代码教你爬遍小视频网站,先批量下载后仔细观看,岂不美哉!
/2 整理思路/
这类网站一般大同小异,本文就以凤凰网新闻视频网站为例,采用倒推的方式,给大家介绍如何通过流量分析获得视频下载的url,进而批量下载。
/3 操作步骤/
/3.1 分析网站,找出网页变化规律/
1、首先找到网页,网页详情如下图所示。
2、该视频网站分为人物、娱乐、艺术等不同类型,本文以体育版块为例,下拉到底端,如下图所示。
3、根据上图的结果,我们可以发现该网站是动态网页,打开浏览器自带流量分析器,点击加载更多,找出网页变化规律,第一个就是,请求网址和返回结果如下图。标记处为页码,此时是第3页。
4、返回结果包含视频的title、网页url、guid(相当于每个视频的标志,后续有用)等信息,如下图所示。
5、每个网页里边包含24个视频,打印出来是这样的,如下图所示。
/3.2 寻找视频网页地址规律/
1、先打开流量分析器,播放视频进行抓包,找到几个mp2t文件,如下图所示。
2、它们的网址我依次找了出来,放到文本文件中存放起来,以发现它们之间的规律,如下图所示。
3、大家发现规律了吗?网址中的p26275262-102-9987636-172625参数就是视频的guid(上述已经得到),只有range_bytes参数是变化的,而且是从0到6767623,很显然这是视频的大小,而且视频是分段合成的。找到这些规律之后,接下来我们需要继续进行细挖视频地址的出处。
/3.3 寻找视频的下载原始地址/
1、先考虑一个问题,视频的地址是从哪来的呢?一般情况下,先在视频网页里看看有没有,如果没有,我们就在流量分析器里,沿着第一个分段视频往上找,肯定是有某个网址返回了这些信息,很快,我在1个vdn.apple.mpegurl文件里发现了下图这个。
2、太惊喜了,这不就是我们要找的信息么,再看看它的url参数,如下图所示。
3、上图参数看起来很多的样子,不过不用怕。还是利用老办法,先在网页里看看有没有,没有的话还在流量分析器里往上找,功夫不负有心人,我找到了下图这个。
4、它的url如下图所示。
5、仔细找找规律,我们发现唯一需要变化的就是每个视频的guid了,这个第一步已经得到了。另外,返回结果包含了上述除了vkey的所有参数,而且这个参数最长,那该怎么办呢?
6、不要慌,万一这个参数没有用呢,先把vkey去掉试一试。果不其然,果然没有什么用,现在整个过程已经捋顺了,现在可以撸代码了。
/3.4 代码实现/
1、在代码里边,设置多线程下载,如下图所示,其中页码可以自己进行修改哈。
2、解析返回参数,json格式的,使用json库进行处理,如下图所示。通过解析,我们可以得到每个视频的title、网页url、和guid。
3、模拟请求,获得除Vkey外的参数,如下图所示。
4、利用上一步中的参数,进行模拟请求,获得包含分段视频的信息,如下图所示。
5、将分段视频合并,保存在1个视频文件,并以title命名,如下图所示。
/3.5 效果呈现/
1、当程序运行之后,我们便可以看到网页中的视频哗啦哗啦的在本地文件夹中进行呈现,如下图所示。接下来,妈妈再也不用担心我喜欢的视频找不着了,真香!
当然了,如果想更加直观的话,可以在代码中加入维测信息,这个大家可以自己手动设置一下。
/4 总结/
本文主要基于Python网络爬虫,利用40行代码,针对小视频网页,进行批量获取网页视频到本地。方法简单易行,而且行之有效,欢迎大家踊跃尝试。如果想获取本文代码,请zhi姐访问https://github.com/cassieeric/python_crawler/tree/master/little_video_crawler,即可获取代码链接,如果觉得不差,记得给个star噢。
相关推荐
- tplink路由器怎么管理(tplink路由器管理app叫什么)
-
1、进入到路由器的管理界面,点击设置向导然后点下一步。2、选择工作模式,选择AP:接入点模式,点击下一步1.AP是WirelessAccessPoint的简称,中文名称:无线接入点;AP模式也...
- 怎样把wifi网速调到最快(怎样把wifi网速调到最快速度)
-
解决的方式很多,试试以下方法: 一、路由器摆放位置不正确 为了让自家的房间显得干净、整洁,很多人会选择将路由器放在不显眼的地方,比如门后、墙角、电脑桌下面,这样确实不影响美观,但是网络信号容易被...
- 十大口碑最好的台式电脑(目前最好的台式)
-
一:联想电脑联想公司是全世界500强公司,也是全世界最大的pc电脑生产商之一。目前在点信息科技产业内全方位发展,是一家具有创造力的科技大公司,在全世界也就具有极高的品牌价值。二:戴尔电脑戴尔也是PC电...
- 显卡天梯图3050ti(显卡天梯图快科技)
-
RTX3050Ti的最新跑分达到了71803。根据Geekbench的信息,RTX3050Ti搭载20组CU,也就是2560个CUDA核心,GPU频率为1.49GH...
- office完整版下载(office2019完整版下载)
-
word是office软件中的一部份,完全的安装了office软件就等于安装了word。安装具体步骤如下:1、搜索,下载Office安装包。2、下载完成后,将Office安装包解压。选中Offic...
- qq邮箱网页登陆(qq邮箱网页登陆提示安全风险要验证码)
-
qq邮箱的登录方法:1登录QQ后,正常情况下头像旁边有一个邮箱图标,点击直接登录QQ邮箱2如果没有在主面板上显示的话,可以点击界面管理器添加3在界面管理的右侧,找到QQ邮箱并设置为选状态这样就可直接从...
- 360软件管家有必要安装吗
-
360电脑管家这类软件属于安全软件,其作用是用来防病毒木马。有无安装必要主要看你的电脑使用习惯。比如有的电脑不联网,而且不插外来U盘,这样的电脑几乎与外界隔离,就没有必要安装安全软件。再比如有的电脑经...
- 如何桥接无线路由器并设置上网
-
1、登录副路由器管理界面操作电脑连接到副路由器的LAN口或无线信号(默认为TP-LINK_XXXX),打开浏览器,清空地址栏并输入tplogin.cn或192.168.1.1,设置不少于6位数的登录密...
- 电脑配置搭配(电脑配置搭配表)
-
电脑配置搭配需要考虑多个组件,包括CPU、主板、显卡、内存、硬盘、电源以及散热器等。以下是一些建议和指南:CPU选择:CPU是电脑的心脏,决定了电脑的整体性能。选择CPU时需要考虑核心数、主频、线程数...
- windows7安装步骤简述(win7的安装)
-
运行温度时期的电脑怎么组装?官方已经给出了相关配置:处理器(cpu)最好是主频1GHZ以上,32位或64位处理器,不过目前的处理器几乎都是64位的了,一般双核处理器都在1GHZ以上。 也就是说目前绝...
- 电脑删除的数据怎么恢复(电脑删除数据怎么恢复原状)
-
步骤一:打开电脑上已经装好的Superrecovery软件,直接进入到“向导模式”。首先,大家需要做的就是选择文件所在的位置,例如:需要恢复的数据是在移动存储设备上(如:U盘、SD卡等),直接选择设备...
- 删除数据恢复(删除数据恢复出厂设置)
-
1.在手机上下载手机数据恢复精灵,进入软件之后,选择微信恢复。2.点击开始恢复,选择需要恢复的联系人,等待一会儿,就能看到恢复好的聊天记录。3.可以安装打开互盾安卓恢复大师,手机数据线连接手机后,点击...
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
python入门到脱坑 输入与输出—str()函数
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
慕ke 前端工程师2024「完整」
-
失业程序员复习python笔记——条件与循环
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
