Python实战:爬取哔哩哔哩【UP主投稿的所有视频】
off999 2024-12-15 16:03 12 浏览 0 评论
上一篇文章提供了一种新的思路,找到了一条捷径,可以绕过 JS 逆向,直接监听接口,从接口的 response 中提取想要的数据。
传送门:Python实战:绕过JS逆向,爬取抖音搜索视频结果
今天,再运用这个思路写一个案例,实现爬取爬取哔哩哔哩 UP 主投稿的所有视频。(本文首发在“程序员coding”公众号)
一、先看结果
程序运行结束后会生成一个 excel 表格,包含 UP主名称、视频标题、视频描述、视频时长、播放数、评论数、弹幕数、发布时间、作者mid、视频aid、视频bvid、是否合作视频、视频链接、作者主页链接、视频封面图、视频属性、typeid 这 17 个字段的信息。
二、环境
(本文首发在“程序员coding”公众号)
python 3.11.5
pycharm
三、模块
from DrissionPage import ChromiumPage
from DataRecorder import Recorder
import time
import os
import datetime
四、分析数据来源
首先在作者主页点击更多,来到投稿视频的页面。
浏览器的开发者工具,点击投稿视频页面的下一页,找到包含视频数据的请求。
在浏览器的开发者工具的 preview 页面查看 response ,可以看到视频在 vlist 这个列表内。
展开第一个视频,可以看到包含的信息如下,是一个 json 格式,可以通过键值对的方法提取出视频信息。
在浏览器的开发者工具的 payload 页面可以看到请求需要携带的参数很多,还有加密的参数。
这种情况下,直接去扣 JS 逆向的话难度很大。
在 headers 页面,找到 requests url ,可以通过关键词监听这个接口,把这串关键词api.bilibili.com/x/space/wbi/arc/search复制出来,下面写代码能用到。
五、思路
1、访问主页
2、监听接口、解析数据
3、循环翻页
六、代码实现过程
1、登录
定义一个 sign_in() 函数,在函数内部使用 DrissionPage 库的 get() 方法,打开哔哩哔哩的网站首页。(本文首发在“程序员coding”公众号)
如果第一次执行代码,需要登录账号,第二次之后运行代码,可以把 sign_in() 函数注释掉不用再次执行这一步骤。
from DrissionPage import ChromiumPage
def sign_in():
""""登录函数"""
sign_in_page = ChromiumPage()
sign_in_page.get('https://www.bilibili.com/')
print('请扫码登录')
2、获取response
通过翻页,可以发现地址规律。变化的只有 pn 的值,可以方便的构造出页面的 url 地址。
(本文首发在“程序员coding”公众号)
def get_response(pn):
""""通过监听接口,获取返回的response"""
# 访问网址
page = ChromiumPage()
url = f'https://space.bilibili.com/{UID}/video?tid=0&pn={pn}&keyword=&order=pubdate'
page.listen.start('api.bilibili.com/x/space/wbi/arc/search', method='GET') # 开始监听,指定获取包含该文本的数据包
page.get(url)
# 等待并获取一个数据包
res = page.listen.wait(timeout=10)
# json_data和浏览器的开发者工区中response一样
json_data = res.response.body
return json_data
3、解析response
通过监听接口,我们获取到了 response ,这是 json 格式的。然后就可以解析 response ,提取每一条视频的信息了。
# videos是所有视频列表
videos = json_data['data']['list']['vlist']
# 提取视频信息
for v in videos:
# 视频 aid
aid = v['aid']
# 视频 bvid
bvid = v['bvid']
# 发布 author
author = v['author']
# 视频标题
title = v['title']
这里只列出其中几个字段的提取方法,其他字段也是类似的方法提取,这个很简单,就不全部介绍了。
4、保存到excel
from DataRecorder import Recorder
import time
# 新建一个excel表格,用来保存数据
formatted_time = time.strftime("%Y-%m-%d %H%M%S", current_time)
init_file_path = f'哔哩哔哩UP主发布的所有视频-{UID}-{formatted_time}.xlsx'
info = {'UP主名称': author, '视频标题': title, '视频描述': description, '视频时长': length, '播放数': play,
'评论数': comment, '弹幕数': video_review, '发布时间': create_time,
'作者mid': author_mid, '视频aid': aid, '视频bvid': bvid, '是否合作视频': is_union_video,
'视频链接': video_url, '作者主页链接': author_url, '视频封面图': pic,
'视频属性': attribute, 'typeid': typeid}
# 保存数据到缓存
r.add_data(info)
# 爬虫结束,避免丢数据,强制保存文件
r.record()
5、main()函数
if __name__ == '__main__':
# 1、登录,第2次运行可以注释掉这一步骤
sign_in()
# 2、UID 是UP主的id
UID = '99157282'
# 3、page_num 是所有视频总共有多少页
page_num = 20
# 4、开始爬取数据
run()
七、操作方法:
在浏览器地址栏可以找到 UP 主的 ID 号,https://space.bilibili.com/99157282/video中的99157282就是UID。
然后找到视频页码数量,也就是 20 页视频。
把这 2 个参数粘贴到代码的 main() 函数中,即可运行代码。
代码运行过程中, Pycharm 控制台输出如下:
八、完整代码
完整的代码经过调试完善可以完美运行,我也亲自多次实验,生成的 excel 表格案例如下。
生成的 excel 表命名包含作者名称、UID、笔记数量、采集日期时间这些信息。
本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。还可以通过公众号添加我的私人微信。
诚信交友,欢迎沟通交流。
每一份能满足他人需求的努力都值得被付费。
完整代码下载链接:可在“程序员coding”公众号文章获取。
相关推荐
- 独家 | 5 个Python高级特性让你在不知不觉中成为Python高手
-
你已经使用Python编程了一段时间,编写脚本并解决各种问题。是你的水平出色吗?你可能只是在不知不觉中利用了Python的高级特性。从闭包(closure)到上下文管理器(contextmana...
- Python装饰器
-
Python装饰器是一种用于修改函数或类的行为的特殊语法。它们允许在不修改原始代码的情况下,通过将函数或类作为参数传递给另一个函数来添加额外的功能。装饰器本质上是一个函数,它接受一个函数作为参数,并返...
- 中高阶Python常规用法--上下文管理器
-
Python以简单性和通用性著称,是一种深受全球开发人员喜爱的编程语言。它提供了大量的特性和功能,使编码成为一种愉快的体验。在这些功能中,一个经常被新手忽视的强大工具是上下文管理器。上下文管理器是高...
- Python小案例67- 装饰器
-
Python装饰器是一种用于修改函数或类的行为的特殊语法。它们允许在不修改原始代码的情况下,通过将函数或类作为参数传递给另一个函数来添加额外的功能。装饰器本质上是一个函数,它接受一个函数作为参数,并返...
- python常用的语法糖
-
概念Python的语法糖(SyntacticSugar)是指那些让代码更简洁、更易读的语法特性,它们本质上并不会增加新功能,但能让开发者更高效地编写代码。推导式写法推导式是Python最经典的...
- python - 常用的装饰器 decorator 有哪些?
-
python编程中使用装饰器(decorator)工具,可以使代码更简洁清晰,提高代码的重用性,还可以为代码维护提供方便。对于python初学者来说,根据装饰器(decorator)的字面意思并不...
- python数据缓存怎么搞 ?推荐一个三方包供你参考,非常简单好用。
-
1.数据缓存说明数据缓存可以说也是项目开发中比不可少的一个工具,像我们测试的系统中,你都会见到像Redis一样的数据缓存库。使用缓存数据库的好处不言而喻,那就是效率高,简单数据直接放在缓存中...
- 用于时间序列数据的Graphite监视工具
-
结合第三方工具,Graphite为IT性能监控提供了许多好处。本文介绍其核心组件,包括Carbon、Whisper以及安装的基本准则。Graphite监视工具可实时或按需,大规模地绘制来自多个来源的时...
- Python3+pygame实现的坦克大战
-
一、显示效果二、代码1.说明几乎所有pygame游戏,基本都遵循一定的开发流程,大体如下:初始化pygame创建窗口while循环检测以及处理事件(鼠标点击、按键等)更新UI界面2.代码创建一个m...
- Python之鸭子类型:一次搞懂with与上下文装饰器
-
引言在鸭子类型的理念的基础之上,从关注类型,转变到关注特性和行为。结合Python中的魔法函数的体系,我们可以将自定义的类型,像内置类型一样被使用。今天这篇文章中,接着该话题,继续聊一下with语法块...
- Python必会的50个代码操作
-
学习Python时,掌握一些常用的程序操作非常重要。以下是50个Python必会的程序操作,主要包括基础语法、数据结构、函数和文件操作等。1.HelloWorldprint("Hello,...
- 一文掌握Python 中的同步和异步
-
同步代码(Sync)同步就像在一个流水线上工作,每个任务都等待前一个任务完成。示例:机器A切割钢板→完成后,机器B钻孔→完成后,机器C上色。在Python中,同步代码看起来像这样:im...
- python 标注模块timeit: 测试函数的运行时间
-
在Python中,可以使用内置的timeit模块来测试函数的运行时间。timeit模块提供了一个简单的接口来测量小段代码的执行时间。以下是使用timeit测试函数运行时间的一般步骤:导入...
- Python带你找回童年的万花尺
-
还记得小时候的万花尺吧?这么画:一点也不费脑筋,就可以出来这么多丰富多彩的复杂几何图形。具体而言,可以用万花尺玩具(如图2-1所示)来绘制数学曲线。这种玩具由两个不同尺寸的塑料齿轮组成,一大一小。小的...
- Python 时间模块深度解析:从基础到高级的全面指南
-
直接上干货一、时间模块核心类介绍序号类名说明1datetime.datetime表示一个具体的日期和时间,结合了日期和时间的信息。2datetime.date表示一个具体的日期。3datetime.t...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- python计时 (54)
- python安装路径 (54)
- python类型转换 (75)
- python进度条 (54)
- python的for循环 (56)
- python串口编程 (60)
- python写入txt (51)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python字典增加键值对 (53)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python qt (52)
- python人脸识别 (54)
- python斐波那契数列 (51)
- python多态 (60)
- python命令行参数 (53)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- centos7安装python (53)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)