百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python实战:爬取哔哩哔哩【UP主投稿的所有视频】

off999 2024-12-15 16:03 18 浏览 0 评论

上一篇文章提供了一种新的思路,找到了一条捷径,可以绕过 JS 逆向,直接监听接口,从接口的 response 中提取想要的数据。

传送门:Python实战:绕过JS逆向,爬取抖音搜索视频结果

今天,再运用这个思路写一个案例,实现爬取爬取哔哩哔哩 UP 主投稿的所有视频。(本文首发在“程序员coding”公众号)

一、先看结果

程序运行结束后会生成一个 excel 表格,包含 UP主名称、视频标题、视频描述、视频时长、播放数、评论数、弹幕数、发布时间、作者mid、视频aid、视频bvid、是否合作视频、视频链接、作者主页链接、视频封面图、视频属性、typeid 这 17 个字段的信息。

二、环境

(本文首发在“程序员coding”公众号)
python 3.11.5
pycharm

三、模块

from DrissionPage import ChromiumPage
from DataRecorder import Recorder
import time
import os
import datetime

四、分析数据来源

首先在作者主页点击更多,来到投稿视频的页面。

浏览器的开发者工具,点击投稿视频页面的下一页,找到包含视频数据的请求。

在浏览器的开发者工具的 preview 页面查看 response ,可以看到视频在 vlist 这个列表内。

展开第一个视频,可以看到包含的信息如下,是一个 json 格式,可以通过键值对的方法提取出视频信息。

在浏览器的开发者工具的 payload 页面可以看到请求需要携带的参数很多,还有加密的参数。

这种情况下,直接去扣 JS 逆向的话难度很大。

在 headers 页面,找到 requests url ,可以通过关键词监听这个接口,把这串关键词api.bilibili.com/x/space/wbi/arc/search复制出来,下面写代码能用到。

五、思路

1、访问主页

2、监听接口、解析数据

3、循环翻页

六、代码实现过程

1、登录

定义一个 sign_in() 函数,在函数内部使用 DrissionPage 库的 get() 方法,打开哔哩哔哩的网站首页。(本文首发在“程序员coding”公众号)

如果第一次执行代码,需要登录账号,第二次之后运行代码,可以把 sign_in() 函数注释掉不用再次执行这一步骤。

from DrissionPage import ChromiumPage
def sign_in():
    """"登录函数"""
    sign_in_page = ChromiumPage()
    sign_in_page.get('https://www.bilibili.com/')
    print('请扫码登录')

2、获取response

通过翻页,可以发现地址规律。变化的只有 pn 的值,可以方便的构造出页面的 url 地址。

(本文首发在“程序员coding”公众号)
def get_response(pn):
    """"通过监听接口,获取返回的response"""
    # 访问网址
    page = ChromiumPage()
    url = f'https://space.bilibili.com/{UID}/video?tid=0&pn={pn}&keyword=&order=pubdate'
    page.listen.start('api.bilibili.com/x/space/wbi/arc/search', method='GET')  # 开始监听,指定获取包含该文本的数据包
    page.get(url)

    # 等待并获取一个数据包
    res = page.listen.wait(timeout=10)
    # json_data和浏览器的开发者工区中response一样
    json_data = res.response.body
    return json_data

3、解析response

通过监听接口,我们获取到了 response ,这是 json 格式的。然后就可以解析 response ,提取每一条视频的信息了。

# videos是所有视频列表
videos = json_data['data']['list']['vlist']
# 提取视频信息
for v in videos:
    # 视频 aid
    aid = v['aid']
    # 视频 bvid
    bvid = v['bvid']
    # 发布 author
    author = v['author']
    # 视频标题
    title = v['title']

这里只列出其中几个字段的提取方法,其他字段也是类似的方法提取,这个很简单,就不全部介绍了。

4、保存到excel

from DataRecorder import Recorder
import time
# 新建一个excel表格,用来保存数据
formatted_time = time.strftime("%Y-%m-%d %H%M%S", current_time)
init_file_path = f'哔哩哔哩UP主发布的所有视频-{UID}-{formatted_time}.xlsx'
info = {'UP主名称': author, '视频标题': title, '视频描述': description, '视频时长': length, '播放数': play,
        '评论数': comment, '弹幕数': video_review, '发布时间': create_time,
        '作者mid': author_mid, '视频aid': aid, '视频bvid': bvid, '是否合作视频': is_union_video,
        '视频链接': video_url, '作者主页链接': author_url, '视频封面图': pic,
        '视频属性': attribute, 'typeid': typeid}
# 保存数据到缓存
r.add_data(info)
# 爬虫结束,避免丢数据,强制保存文件
r.record()

5、main()函数

if __name__ == '__main__':
    # 1、登录,第2次运行可以注释掉这一步骤
    sign_in()

    # 2、UID 是UP主的id
    UID = '99157282'

    # 3、page_num 是所有视频总共有多少页
    page_num = 20

    # 4、开始爬取数据
    run()

七、操作方法:

在浏览器地址栏可以找到 UP 主的 ID 号,https://space.bilibili.com/99157282/video中的99157282就是UID。

然后找到视频页码数量,也就是 20 页视频。

把这 2 个参数粘贴到代码的 main() 函数中,即可运行代码。

代码运行过程中, Pycharm 控制台输出如下:

八、完整代码

完整的代码经过调试完善可以完美运行,我也亲自多次实验,生成的 excel 表格案例如下。

生成的 excel 表命名包含作者名称、UID、笔记数量、采集日期时间这些信息。

本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。还可以通过公众号添加我的私人微信。

诚信交友,欢迎沟通交流。

每一份能满足他人需求的努力都值得被付费。

完整代码下载链接:可在“程序员coding”公众号文章获取。

相关推荐

阿里云国际站ECS:阿里云ECS如何提高网站的访问速度?

TG:@yunlaoda360引言:速度即体验,速度即业务在当今数字化的世界中,网站的访问速度已成为决定用户体验、用户留存乃至业务转化率的关键因素。页面加载每延迟一秒,都可能导致用户流失和收入损失。对...

高流量大并发Linux TCP性能调优_linux 高并发网络编程

其实主要是手里面的跑openvpn服务器。因为并没有明文禁p2p(哎……想想那么多流量好像不跑点p2p也跑不完),所以造成有的时候如果有比较多人跑BT的话,会造成VPN速度急剧下降。本文所面对的情况为...

性能测试100集(12)性能指标资源使用率

在性能测试中,资源使用率是评估系统硬件效率的关键指标,主要包括以下四类:#性能测试##性能压测策略##软件测试#1.CPU使用率定义:CPU处理任务的时间占比,计算公式为1-空闲时间/总...

Linux 服务器常见的性能调优_linux高性能服务端编程

一、Linux服务器性能调优第一步——先搞懂“看什么”很多人刚接触Linux性能调优时,总想着直接改配置,其实第一步该是“看清楚问题”。就像医生看病要先听诊,调优前得先知道服务器“哪里...

Nginx性能优化实战:手把手教你提升10倍性能!

关注△mikechen△,十余年BAT架构经验倾囊相授!Nginx是大型架构而核心,下面我重点详解Nginx性能@mikechen文章来源:mikechen.cc1.worker_processe...

高并发场景下,Spring Cloud Gateway如何抗住百万QPS?

关注△mikechen△,十余年BAT架构经验倾囊相授!大家好,我是mikechen。高并发场景下网关作为流量的入口非常重要,下面我重点详解SpringCloudGateway如何抗住百万性能@m...

Kubernetes 高并发处理实战(可落地案例 + 源码)

目标场景:对外提供HTTPAPI的微服务在短时间内收到大量请求(例如每秒数千至数万RPS),要求系统可弹性扩容、限流降级、缓存减压、稳定运行并能自动恢复。总体思路(多层防护):边缘层:云LB...

高并发场景下,Nginx如何扛住千万级请求?

Nginx是大型架构的必备中间件,下面我重点详解Nginx如何实现高并发@mikechen文章来源:mikechen.cc事件驱动模型Nginx采用事件驱动模型,这是Nginx高并发性能的基石。传统...

Spring Boot+Vue全栈开发实战,中文版高清PDF资源

SpringBoot+Vue全栈开发实战,中文高清PDF资源,需要的可以私我:)SpringBoot致力于简化开发配置并为企业级开发提供一系列非业务性功能,而Vue则采用数据驱动视图的方式将程序...

Docker-基础操作_docker基础实战教程二

一、镜像1、从仓库获取镜像搜索镜像:dockersearchimage_name搜索结果过滤:是否官方:dockersearch--filter="is-offical=true...

你有空吗?跟我一起搭个服务器好不好?

来人人都是产品经理【起点学院】,BAT实战派产品总监手把手系统带你学产品、学运营。昨天闲的没事的时候,随手翻了翻写过的文章,发现一个很严重的问题。就是大多数时间我都在滔滔不绝的讲理论,却很少有涉及动手...

部署你自己的 SaaS_saas如何部署

部署你自己的VPNOpenVPN——功能齐全的开源VPN解决方案。(DigitalOcean教程)dockovpn.io—无状态OpenVPNdockerized服务器,不需要持久存储。...

Docker Compose_dockercompose安装

DockerCompose概述DockerCompose是一个用来定义和管理多容器应用的工具,通过一个docker-compose.yml文件,用YAML格式描述服务、网络、卷等内容,...

京东T7架构师推出的电子版SpringBoot,从构建小系统到架构大系统

前言:Java的各种开发框架发展了很多年,影响了一代又一代的程序员,现在无论是程序员,还是架构师,使用这些开发框架都面临着两方面的挑战。一方面是要快速开发出系统,这就要求使用的开发框架尽量简单,无论...

Kubernetes (k8s) 入门学习指南_k8s kubeproxy

Kubernetes(k8s)入门学习指南一、什么是Kubernetes?为什么需要它?Kubernetes(k8s)是一个开源的容器编排系统,用于自动化部署、扩展和管理容器化应用程序。它...

取消回复欢迎 发表评论: