百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

40行代码教你利用Python网络爬虫批量抓取小视频

off999 2024-12-06 18:13 19 浏览 0 评论

/1 前言/

还在为在线看小视频缓存慢发愁吗?还在为想重新回味优秀作品但找不到资源而忧虑吗?莫要慌,让python来帮你解决,40行代码教你爬遍小视频网站,先批量下载后仔细观看,岂不美哉!


/2 整理思路/

这类网站一般大同小异,本文就以凤凰网新闻视频网站为例,采用倒推的方式,给大家介绍如何通过流量分析获得视频下载的url,进而批量下载。


/3 操作步骤/

/3.1 分析网站,找出网页变化规律/

1、首先找到网页,网页详情如下图所示。


2、该视频网站分为人物、娱乐、艺术等不同类型,本文以体育版块为例,下拉到底端,如下图所示。


3、根据上图的结果,我们可以发现该网站是动态网页,打开浏览器自带流量分析器,点击加载更多,找出网页变化规律,第一个就是,请求网址和返回结果如下图。标记处为页码,此时是第3页。


4、返回结果包含视频的title、网页url、guid(相当于每个视频的标志,后续有用)等信息,如下图所示。


5、每个网页里边包含24个视频,打印出来是这样的,如下图所示。


/3.2 寻找视频网页地址规律/

1、先打开流量分析器,播放视频进行抓包,找到几个mp2t文件,如下图所示。


2、它们的网址我依次找了出来,放到文本文件中存放起来,以发现它们之间的规律,如下图所示。


3、大家发现规律了吗?网址中的p26275262-102-9987636-172625参数就是视频的guid(上述已经得到),只有range_bytes参数是变化的,而且是从0到6767623,很显然这是视频的大小,而且视频是分段合成的。找到这些规律之后,接下来我们需要继续进行细挖视频地址的出处。

/3.3 寻找视频的下载原始地址/

1、先考虑一个问题,视频的地址是从哪来的呢?一般情况下,先在视频网页里看看有没有,如果没有,我们就在流量分析器里,沿着第一个分段视频往上找,肯定是有某个网址返回了这些信息,很快,我在1个vdn.apple.mpegurl文件里发现了下图这个。


2、太惊喜了,这不就是我们要找的信息么,再看看它的url参数,如下图所示。


3、上图参数看起来很多的样子,不过不用怕。还是利用老办法,先在网页里看看有没有,没有的话还在流量分析器里往上找,功夫不负有心人,我找到了下图这个。


4、它的url如下图所示。


5、仔细找找规律,我们发现唯一需要变化的就是每个视频的guid了,这个第一步已经得到了。另外,返回结果包含了上述除了vkey的所有参数,而且这个参数最长,那该怎么办呢?

6、不要慌,万一这个参数没有用呢,先把vkey去掉试一试。果不其然,果然没有什么用,现在整个过程已经捋顺了,现在可以撸代码了。


/3.4 代码实现/

1、在代码里边,设置多线程下载,如下图所示,其中页码可以自己进行修改哈。


2、解析返回参数,json格式的,使用json库进行处理,如下图所示。通过解析,我们可以得到每个视频的title、网页url、和guid。


3、模拟请求,获得除Vkey外的参数,如下图所示。


4、利用上一步中的参数,进行模拟请求,获得包含分段视频的信息,如下图所示。


5、将分段视频合并,保存在1个视频文件,并以title命名,如下图所示。


/3.5 效果呈现/

1、当程序运行之后,我们便可以看到网页中的视频哗啦哗啦的在本地文件夹中进行呈现,如下图所示。接下来,妈妈再也不用担心我喜欢的视频找不着了,真香!


当然了,如果想更加直观的话,可以在代码中加入维测信息,这个大家可以自己手动设置一下。


/4 总结/

本文主要基于Python网络爬虫,利用40行代码,针对小视频网页,进行批量获取网页视频到本地。方法简单易行,而且行之有效,欢迎大家踊跃尝试。如果想获取本文代码,请zhi姐访问https://github.com/cassieeric/python_crawler/tree/master/little_video_crawler,即可获取代码链接,如果觉得不差,记得给个star噢。

相关推荐

hdd硬盘和ssd(ssd硬盘和hdd硬盘是什么意思)

HDD硬盘和SSD硬盘是两种不同类型的电脑存储设备,它们有着以下区别:1.工作原理:HDD硬盘使用机械旋转的磁盘和读写磁头来存储和读取数据,而SSD硬盘则使用闪存存储数据,类似于USB闪存盘。2....

电脑免费软件下载大全(电脑上免费的下载软件)

正常情况下,如果我们想要在自己的电脑上面下载一个不要钱的单机游戏,那么我们是可以直接在我们的软件管理中心进行一个下载的,这个时候我们只需要通过一个权限就能够正常的下载,当然我们也是可以在一些小游戏的软...

mpp文件转换excel(mpp转换成pdf)

要将Excel表格转换为MPP格式,您可以按照以下步骤操作:1.打开Excel表格并确保数据按照项目的不同阶段或任务进行组织。2.将Excel表格中的数据复制到一个新的MicrosoftProj...

win7旗舰版开机密码忘记按f2

方法如下:开始-控制面板-用户帐户;在打开的更改用户帐户界面点击要更改的帐户;然后点击帐户左面的更改密码按钮;在打开的页面上,输入一次当前使用的密码,输入2次要更改的新密码然后保存退出就可以了...

笔记本无音频输出设备(笔记本无音频输出设备)

1、没有声卡驱动,解决方法就是找到笔记本的官网,下载电脑声卡的驱动安装即可。2、没有外界的音频播放设备,解决方法就是买一个外界的音频播放设备插到电脑主机的音频接口上即可。笔记本电脑显示未安装任何音频输...

iso文件能用手机打开吗(iso文件能用手机打开吗安全吗)

一般的压缩软件就可以打开的,比如,好压软件,这个打开只是解压形式的,如果你说的是运行iso文件,这个没有,况且安卓系统也不支持iso运行ISO文件一般用于光盘镜像文件的存储,如果想要在手机上运行ISO...

win7系统卡顿怎么优化(win7很慢很卡怎么优化)

1、首先打开安全卫士,进入安全卫士首页,单击软件窗口右下角的“更多”图标,打开扩展应用程序。2、单击选择“我的工具”。3、在我的工具菜单里面找到“人工服务”单击打开人工服务。4、在人工服务对话框有很多...

如何查看c盘微信聊天记录(如何查看c盘微信聊天记录内存大小)

微信群中的消息只要没删除基本都能保存,想要找微信群中几个多月前的消息可以直接根据日期来查找聊天记录。操作如下:1、打开想要查找记录的微信群,点击右上角人形图标;2、点击查找聊天内容;3、选择按日...

office2016家庭版激活密钥(office家庭版激活码2019)

走淘宝吧,因为零售版的密钥只能用一次。大概几块钱就能激活2016。如果你不在乎钱的话可以向我一样,订阅一个office365.实在不行可以和几个人一起买一个家庭版的365.出现这个情况,找微软申诉是没...

移动硬盘驱动器下载安装(移动硬盘驱动器下载安装教程)

1、右键单击您的桌面,选择“新建文件夹”,并命名该文件夹(例如“usb驱动程序”);2、然后到本站下载驱动程序;3、将其解压缩至在您的桌面上刚刚创建的usb驱动程序文件夹;4、单击开始菜单,然后选择设...

电脑硬盘格式化工具(电脑 格式化硬盘)

硬盘格式化工具很多,PQMACGIG8.0(中文就叫硬盘分区魔法师)是比较好的一个,这个是在WINDOWS下比叫好用,(个人感觉)FDISK也是比较好的一个,这个一般用在DOS下分区格式化WIN...

photoshop是一款什么软件(ps指的是什么软件)

这个说法是错误的,ps软件“即:photoshop”是由美国著名的“adobe阿多比”公司出品的专业的图像处理软件,它不是由微软公司出品的软件。众所周知的是,微软公司以设计视窗操作系统名满全球,它出...

ipad越狱的好处与坏处(ipad越狱好不好)

  好处一:  1、重命名、重组应用程序  如果你看着Sparrow(iOS最优秀邮件客户端)这个名字不爽,越狱之后就可以改成“Email”,如果你觉得“豆瓣电台”这个名字不给力,那就改成“中央人民广...

win7光盘重装系统步骤图解(win7光盘如何重装系统)

1.确认您的电脑支持从光盘启动。如果支持,可以直接将Windows7安装光盘插入电脑的光驱中。 2.打开电脑,按下F2、F10、F12或Delete等键进入BIOS设置界面。 ...

电脑已联网却无法上网(电脑已经联网了但是不能上网)

电脑连上网后,仍可能存在无法上网的情况,这可能是由多种原因造成的。以下是一些可能的原因和解决方法:1.浏览器问题:有时候,浏览器可能会出现故障,导致无法正常访问网络。您可以尝试清除浏览器的缓存和co...

取消回复欢迎 发表评论: