百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python实战:爬取哔哩哔哩【UP主投稿的所有视频】

off999 2024-12-15 16:03 29 浏览 0 评论

上一篇文章提供了一种新的思路,找到了一条捷径,可以绕过 JS 逆向,直接监听接口,从接口的 response 中提取想要的数据。

传送门:Python实战:绕过JS逆向,爬取抖音搜索视频结果

今天,再运用这个思路写一个案例,实现爬取爬取哔哩哔哩 UP 主投稿的所有视频。(本文首发在“程序员coding”公众号)

一、先看结果

程序运行结束后会生成一个 excel 表格,包含 UP主名称、视频标题、视频描述、视频时长、播放数、评论数、弹幕数、发布时间、作者mid、视频aid、视频bvid、是否合作视频、视频链接、作者主页链接、视频封面图、视频属性、typeid 这 17 个字段的信息。

二、环境

(本文首发在“程序员coding”公众号)
python 3.11.5
pycharm

三、模块

from DrissionPage import ChromiumPage
from DataRecorder import Recorder
import time
import os
import datetime

四、分析数据来源

首先在作者主页点击更多,来到投稿视频的页面。

浏览器的开发者工具,点击投稿视频页面的下一页,找到包含视频数据的请求。

在浏览器的开发者工具的 preview 页面查看 response ,可以看到视频在 vlist 这个列表内。

展开第一个视频,可以看到包含的信息如下,是一个 json 格式,可以通过键值对的方法提取出视频信息。

在浏览器的开发者工具的 payload 页面可以看到请求需要携带的参数很多,还有加密的参数。

这种情况下,直接去扣 JS 逆向的话难度很大。

在 headers 页面,找到 requests url ,可以通过关键词监听这个接口,把这串关键词api.bilibili.com/x/space/wbi/arc/search复制出来,下面写代码能用到。

五、思路

1、访问主页

2、监听接口、解析数据

3、循环翻页

六、代码实现过程

1、登录

定义一个 sign_in() 函数,在函数内部使用 DrissionPage 库的 get() 方法,打开哔哩哔哩的网站首页。(本文首发在“程序员coding”公众号)

如果第一次执行代码,需要登录账号,第二次之后运行代码,可以把 sign_in() 函数注释掉不用再次执行这一步骤。

from DrissionPage import ChromiumPage
def sign_in():
    """"登录函数"""
    sign_in_page = ChromiumPage()
    sign_in_page.get('https://www.bilibili.com/')
    print('请扫码登录')

2、获取response

通过翻页,可以发现地址规律。变化的只有 pn 的值,可以方便的构造出页面的 url 地址。

(本文首发在“程序员coding”公众号)
def get_response(pn):
    """"通过监听接口,获取返回的response"""
    # 访问网址
    page = ChromiumPage()
    url = f'https://space.bilibili.com/{UID}/video?tid=0&pn={pn}&keyword=&order=pubdate'
    page.listen.start('api.bilibili.com/x/space/wbi/arc/search', method='GET')  # 开始监听,指定获取包含该文本的数据包
    page.get(url)

    # 等待并获取一个数据包
    res = page.listen.wait(timeout=10)
    # json_data和浏览器的开发者工区中response一样
    json_data = res.response.body
    return json_data

3、解析response

通过监听接口,我们获取到了 response ,这是 json 格式的。然后就可以解析 response ,提取每一条视频的信息了。

# videos是所有视频列表
videos = json_data['data']['list']['vlist']
# 提取视频信息
for v in videos:
    # 视频 aid
    aid = v['aid']
    # 视频 bvid
    bvid = v['bvid']
    # 发布 author
    author = v['author']
    # 视频标题
    title = v['title']

这里只列出其中几个字段的提取方法,其他字段也是类似的方法提取,这个很简单,就不全部介绍了。

4、保存到excel

from DataRecorder import Recorder
import time
# 新建一个excel表格,用来保存数据
formatted_time = time.strftime("%Y-%m-%d %H%M%S", current_time)
init_file_path = f'哔哩哔哩UP主发布的所有视频-{UID}-{formatted_time}.xlsx'
info = {'UP主名称': author, '视频标题': title, '视频描述': description, '视频时长': length, '播放数': play,
        '评论数': comment, '弹幕数': video_review, '发布时间': create_time,
        '作者mid': author_mid, '视频aid': aid, '视频bvid': bvid, '是否合作视频': is_union_video,
        '视频链接': video_url, '作者主页链接': author_url, '视频封面图': pic,
        '视频属性': attribute, 'typeid': typeid}
# 保存数据到缓存
r.add_data(info)
# 爬虫结束,避免丢数据,强制保存文件
r.record()

5、main()函数

if __name__ == '__main__':
    # 1、登录,第2次运行可以注释掉这一步骤
    sign_in()

    # 2、UID 是UP主的id
    UID = '99157282'

    # 3、page_num 是所有视频总共有多少页
    page_num = 20

    # 4、开始爬取数据
    run()

七、操作方法:

在浏览器地址栏可以找到 UP 主的 ID 号,https://space.bilibili.com/99157282/video中的99157282就是UID。

然后找到视频页码数量,也就是 20 页视频。

把这 2 个参数粘贴到代码的 main() 函数中,即可运行代码。

代码运行过程中, Pycharm 控制台输出如下:

八、完整代码

完整的代码经过调试完善可以完美运行,我也亲自多次实验,生成的 excel 表格案例如下。

生成的 excel 表命名包含作者名称、UID、笔记数量、采集日期时间这些信息。

本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。还可以通过公众号添加我的私人微信。

诚信交友,欢迎沟通交流。

每一份能满足他人需求的努力都值得被付费。

完整代码下载链接:可在“程序员coding”公众号文章获取。

相关推荐

安全教育登录入口平台(安全教育登录入口平台官网)

122交通安全教育怎么登录:122交通网的注册方法是首先登录网址http://www.122.cn/,接着打开网页后,点击右上角的“个人登录”;其次进入邮箱注册,然后进入到注册页面,输入相关信息即可完...

大鱼吃小鱼经典版(大鱼吃小鱼经典版(经典版)官方版)

大鱼吃小鱼小鱼吃虾是于谦跟郭麒麟的《我的棒儿呢?》郭德纲说于思洋郭麒麟作诗的相声,最后郭麒麟做了一首,师傅躺在师母身上大鱼吃小鱼小鱼吃虾虾吃水水落石出师傅压师娘师娘压床床压地地动山摇。...

谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
  • 谷歌地球下载高清卫星地图(谷歌地球地图下载器)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)
哪个软件可以免费pdf转ppt(免费的pdf转ppt软件哪个好)

要想将ppt免费转换为pdf的话,我们建议大家可以下一个那个wps,如果你是会员的话,可以注册为会员,这样的话,在wps里面的话,就可以免费将ppt呢转换为pdfpdf之后呢,我们就可以直接使用,不需要去直接不需要去另外保存,为什么格式转...

2026-02-04 09:03 off999

电信宽带测速官网入口(电信宽带测速官网入口app)

这个网站看看http://www.swok.cn/pcindex.jsp1.登录中国电信网上营业厅,宽带光纤,贴心服务,宽带测速2.下载第三方软件,如360等。进行在线测速进行宽带测速时,尽...

植物大战僵尸95版手机下载(植物大战僵尸95 版下载)

1可以在应用商店或者游戏平台上下载植物大战僵尸95版手机游戏。2下载教程:打开应用商店或者游戏平台,搜索“植物大战僵尸95版”,找到游戏后点击下载按钮,等待下载完成即可安装并开始游戏。3注意:确...

免费下载ppt成品的网站(ppt成品免费下载的网站有哪些)

1、Chuangkit(chuangkit.com)直达地址:chuangkit.com2、Woodo幻灯片(woodo.cn)直达链接:woodo.cn3、OfficePlus(officeplu...

2025世界杯赛程表(2025世界杯在哪个国家)

2022年卡塔尔世界杯赛程公布,全部比赛在卡塔尔境内8座球场举行,2022年,决赛阶段球队全部确定。揭幕战于当地时间11月20日19时进行,由东道主卡塔尔对阵厄瓜多尔,决赛于当地时间12月18日...

下载搜狐视频电视剧(搜狐电视剧下载安装)

搜狐视频APP下载好的视频想要导出到手机相册里方法如下1、打开手机搜狐视频软件,进入搜狐视频后我们点击右上角的“查找”,找到自已喜欢的视频。2、在“浏览器页面搜索”窗口中,输入要下载的视频的名称,然后...

pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
  • pubg免费下载入口(pubg下载入口官方正版)
永久免费听歌网站(丫丫音乐网)

可以到《我爱音乐网》《好听音乐网》《一听音乐网》《YYMP3音乐网》还可以到《九天音乐网》永久免费听歌软件有酷狗音乐和天猫精灵,以前要跳舞经常要下载舞曲,我从QQ上找不到舞曲下载就从酷狗音乐上找,大多...

音乐格式转换mp3软件(音乐格式转换器免费版)

有两种方法:方法一在手机上操作:1、进入手机中的文件管理。2、在其中选择“音乐”,将显示出手机中的全部音乐。3、点击“全选”,选中所有音乐文件。4、点击屏幕右下方的省略号图标,在弹出菜单中选择“...

电子书txt下载(免费的最全的小说阅读器)

1.Z-library里面收录了近千万本电子书籍,需求量大。2.苦瓜书盘没有广告,不需要账号注册,使用起来非常简单,直接搜索预览下载即可。3.鸠摩搜书整体风格简洁清晰,书籍资源丰富。4.亚马逊图书书籍...

最好免费观看高清电影(播放免费的最好看的电影)

在目前的网上选择中,IMDb(互联网电影数据库)被认为是最全的电影网站之一。这个网站提供了各种类型的电影和电视节目的海量信息,包括剧情介绍、演员表、评价、评论等。其还提供了有关电影制作背后的详细信息,...

孤单枪手2简体中文版(孤单枪手2简体中文版官方下载)

要将《孤胆枪手2》游戏的征兵秘籍切换为中文,您可以按照以下步骤进行操作:首先,打开游戏设置选项,通常可以在游戏主菜单或游戏内部找到。然后,寻找语言选项或界面选项,点击进入。在语言选项中,选择中文作为游...

取消回复欢迎 发表评论: