百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

真香,Python爬取B站弹幕原来如此简单,源码已附在文末

off999 2024-12-30 06:06 34 浏览 0 评论

B站的弹幕区一直是人才圣地。今天我就用 python 来手把手教大家爬取B站排行榜热门视频,Python爬取视频也可以如此简单。

网站分析

在B站中,只要视频中有弹幕,就会有一个 cid 参数。cid 用来表示某个视频对应的弹幕池。每个弹幕都有一个对应的 XML 文件,我们可以通过解析 XML 文件获取到 B 站视频的弹幕。

所以,只要知道了 cid 参数值,就可以找到视频弹幕数据的位置了。

那我们在观看视频的时候该如何拿到这个 XML 文件呢?

B 站的弹幕是在 XML 文件里,每个视频都有其对应的 cid 和 aid,我们取到 cid 中的数字放入 http://comment.bilibili.com/cid.xml,即可得到该视频对应的弹幕 XML 文件。

首先我们打开视频播放地址,F12打开浏览器开发者模式,如下图找到视频对应的cid就可以构造出弹幕链接

http://comment.bilibili.com/451236101.xml

到此可为止,有了弹幕文件,后面将通过爬虫方式解析弹幕,并进行弹幕内容分析。

请求发送

我们使用request模拟浏览器发送请求获取弹幕数据

url = f'http://comment.bilibili.com/{
   cid}.xml'

headers = {
 
      'referer': 'https://www.bilibili.com/video/BV19h411s7oq?spm_id_from=333.934.0.0',
      'User-Agent': 'https://www.bilibili.com/video/BV19h411s7oq?spm_id_from=333.934.0.0',
      'cookie': "_uuid=19DF1EDB-20B7-FF74-A700-9DF415B2429530977infoc; buvid3=AAD6C6C7-FB31-40E7-92EC-7A6A7ED3920C148814infoc; sid=jzp2723t; fingerprint=2e74a5bc11a3adec2616987dde475370; buvid_fp=AAD6C6C7-FB31-40E7-92EC-7A6A7ED3920C148814infoc; buvid_fp_plain=AAD6C6C7-FB31-40E7-92EC-7A6A7ED3920C148814infoc; DedeUserID=434541726; DedeUserID__ckMd5=448fda6ab5098e5e; SESSDATA=1fe46ad7%2C1651971297%2Ceb583*b1; bili_jct=5bcd45718996ac402a29c7f23110984d; blackside_state=1; rpdid=|(u)YJlJmmu|0J'uYJYRummJm; bp_t_offset_434541726=590903773845625600; bp_video_offset_434541726=590903773845625600; CURRENT_BLACKGAP=0; LIVE_BUVID=AUTO5716377130871212; video_page_version=v_old_home; PVID=1; CURRENT_FNVAL=976; i-wanna-go-back=1; b_ut=6; b_lsid=4F7CFC82_17D78864851; bsource=search_baidu; innersign=1"
     }

  resp = requests.get(url, headers = headers)
  print(resp.text)

成功获取到了数据但是全部都是乱码,这里我们不用设置字符的编码格式,

只需要让request获取到的编码格式和网页的编码格式相等即可

一行代码即可搞定

# 调用.encoding属性获取requests模块的编码方式
    # 调用.apparent_encoding属性获取网页编码方式
    # 将网页编码方式赋值给response.encoding
    resp.encoding = resp.apparent_encoding

成功获取到弹幕数据

信息提取

数据已经给成功的获取到,接下来我们要提取出所有的弹幕信息,

我们从获取到网站的响应信息后可以看出,所有的弹幕文字信息其实都是在

****标签之内的

<d

p="221.05300,1,25,16777215,1638378040,0,a60c99c7,58346355162459136,10">太木呐了 二仙桥大爷</d>

所以我们选择使用正则提取。

# 获取所有评论内容
content_list = re.findall('<d p=".*?">(.*?)</d>', resp.text)

数据保存

我们使用函数将所有的弹幕数据存储在’B站弹幕.csv’文件中

if os.path.exists(comment_file_path):
    os.remove(comment_file_path)
for item in content_list:

    with open(comment_file_path, 'a', encoding = 'utf-8')as fin:
        fin.write(item + '\n')
        print(item)
print('-------------弹幕获取完毕!-------------')

数据处理

接下来就是对数据去重和去空处理了,然后随机抽取五条数据展示如下:

# 读取数据
rcv_data = pd.read_csv('./B站弹幕.csv', encoding='gbk')

# 抽样展示5条数据
print(rcv_data.sample(5))

          精彩弹幕 
538       一脸开心        
162         好活        
661  买两箱,,买买买买        
17    笑死我了 哈哈哈        
424       不忘初心

词频展示

文章评论出现频率最高的前十个词分别如下:

# 词频设置
all_words = [word for word in result.split(' ') if len(word) > 1 and word not in stop_words]
wordcount = Counter(all_words).most_common(10)
    
'''
('哈哈哈', '大爷', '制作', '离谱', '一起', '猝不及防', '二仙', 'sir', '卧槽', '一定')
(207, 69, 27, 13, 13, 13, 12, 12, 12, 9)
'''

词云展示

我们使用结巴分词

最后使用stylecloud绘制漂亮的词云图展示

# 词云展示
def visual_ciyun():
    pic = './img.jpg'
    gen_stylecloud(text=result,
                   icon_name='fas fa-archway',
                   font_path='msyh.ttc',
                   background_color='white',
                   output_name=pic,
                   custom_stopwords=stop_words
                   )
print('词云图绘制成功!')

源码奉上

# -*- coding: utf-8 -*-
# Date: 2021/12/2 10:00
# Author: 不卖萌的邓肯
# wechat: 印象python

import requests
import re, os
import jieba
from wordcloud import WordCloud
from imageio import imread

comment_file_path = 'B站弹幕.csv'

def spider_page(cid):
    url = f'http://comment.bilibili.com/{
   cid}.xml'

    headers = {
 
        'referer': 'xxxxx',
        'User-Agent': 'xxxxx',
        'cookie': "xxxxx"
     }

    resp = requests.get(url, headers = headers)
    # 调用.encoding属性获取requests模块的编码方式
    # 调用.apparent_encoding属性获取网页编码方式
    # 将网页编码方式赋值给response.encoding
    resp.encoding = resp.apparent_encoding

    print(resp.text)

    if resp.status_code == 200:
        # 获取所有评论内容
        content_list = re.findall('<d p=".*?">(.*?)</d>', resp.text)

        if os.path.exists(comment_file_path):
            os.remove(comment_file_path)
        for item in content_list:

            with open(comment_file_path, 'a', encoding = 'utf-8')as fin:
                fin.write(item + '\n')
                print(item)
        print('-------------弹幕获取完毕!-------------')

def data_visual():
    with open(comment_file_path, encoding='utf-8')as file:
        comment_text = file.read()
        wordlist = jieba.lcut_for_search(comment_text)
        new_wordlist = ' '.join(wordlist)
        mask = imread('img_1.png')
        wordcloud = WordCloud(font_path='msyh.ttc', mask=mask).generate(new_wordlist)
        wordcloud.to_file('picture_1.png')

if __name__ == '__main__':
    cid = '451236101'
    print('正在解析,开始爬取弹幕中。。。。。')
    spider_page(cid)
    #data_visual()

今天分享就到此结束啦!有问题,评论区见~~

相关推荐

高仿ios主题全套软件(超高仿ios安卓主题)

IPhone12启动器全套仿Ios12桌面主题是一款能够让大家的安卓手机秒变苹果机的系统工具,IPhone12启动器可让你的手机直接变成IPhone12的桌面。从主题,桌面,Ui以及系统内的各种细节,...

win10在哪里下载软件最好(win10软件在哪下载比较好)

1、点击Win10系统的开始菜单,然后在点击应用商店;2、打开Win10应用商店后,在搜索框里输入想要搜索的应用软件,然后点击检索;3、点击搜索到的应用,点击安装;4、点击安装后,系统会提示要切换到这...

电脑软件怎么安装(电脑软件怎么安装到手机上)

电脑怎么安装excel软件方法/步骤:1.在电脑左下角找到这个小圆圈,单击小圆圈打开搜索栏。搜索MicrosoftStore。2.在右上角找到搜索,单击搜索。在搜索中输入Excel。回车键打开。3....

u盘win7系统安装盘(u盘里安装win7系统)

有些软件我们从网上下载安装时需要破解密码或者我们没有网时,直接需要把安装的软件,传到别的电脑,具体操作如下:1。直接把另一台电脑桌面上的软件复制或发送的优盘里,其实那只是一个快捷方式2.以ps软件为例...

语音输入法哪个好用(语音输入法免费版下载安装)

日常基本使用的讯飞和搜狗都还不错,对比来看的话,讯飞相对会更好一些。讯飞输入法在键盘输入方面进步非常快,功能也比较全面。单纯的语音方面,讯飞的稍微好一点,例如一些标点、断句之类处理的更加到位。讯飞支持...

手机app应用市场(手机里面的应用市场)

360手机助手是android智能手机的手机管理专家。提供海量的游戏、软件、音乐、小说、视频、图片,通过它轻松下载、安装、管理手机资源。所有提供信息资源,全部经过360安全检测中心的审核认证,绿色无毒...

开局最强系统(开局最强系统txt奇书网)
开局最强系统(开局最强系统txt奇书网)

《最强奶爸系统》作者:最美猪猪小说简介同学甲:“我找到了月入七千的工作。”同学乙:“我找到了月入一万的工作。叶辰,你呢?”叶辰:“我老婆…是万亿市值超凡集团的老板,给我生了10个孩子。”同学们:???叶辰遭前女友陷害,阴差阳错邂逅了一位美女...

2026-01-03 07:03 off999

win10系统下载器官网(下载windows10官方)

如果您想要在Windows10上下载游戏辅助,可以按照以下步骤进行:1.打开您选择的游戏辅助下载网站,例如:GameCopyWorld或MegaGames。这些网站提供许多破解游戏的补丁和辅助工具...

photoshop官方网站进入(photoshop官网入口)

那是因为网站采用了安全加密技术,安装了SSL证书,说明此网站为安全的页面,其信息已经经过加密措施。显示https的网站,网址上还会有显示一个小锁头,也是安全标志。1.先用Photoshop做一个网页图...

windows7旗舰版主机多少钱(windows7旗舰版电脑多少钱一台)

其实这两个版本没有太大的差别,只是功能上有少量差别,旗舰版服务开启的要比专业版本服务开启的多几个,至于朋友们说的专业快速度比旗舰版快,或旗舰版比专业版速度快,个人认为速度都是一样只是功能上的差别,如果...

小米平板(小米平板怎么分屏)

小米平板的简单使用方法:1、首先给小米平板给充电,确保电量充足。2、长按住电源键启动小米平板,进入设备初始设置界面。3、根据屏幕上的提示信息,设置平板电脑联网、绑定小米账号等,直到完成即可正常使用了。...

移动硬盘一直在加载无法读取

移动硬盘电源灯亮说明硬盘有供电,无法识别此移动硬盘时,可按如下步骤进行排查:1)将移动硬盘拔下后,更换硬盘盒再接上确认。2)更换过硬盘盒还是无法识别的话,移动硬盘就损坏了,需要进行更换;3)若更换过硬...

下载软件的app大全(下载软件的app大全免费)

中国最常见的目前是迅雷下载软件。官网可以下载到正常的免费版本。他支持ftphttpbt磁力链接等多种形式的下载。国外的有bitcome。电驴和电骡等多种形式的下载软件。他们都可以满足日常的下载要求,...

wifi贴小程序搭建需要多少钱

回答如下:要搭建自己的WiFi小程序,需要以下步骤:1.获得开发资格:首先需要注册成为开发者,获得小程序的开发资格。2.编写代码:使用微信小程序的开发工具,编写WiFi小程序的前端和后端代码。3....

外网服务器地址(外网服务器地址ip大全)

要弄懂这个问题,你首先要了解什么叫内网,什么叫外网,什么叫服务器,服务器在网络中所扮演的是什么角色,内网:就是指内部网络,窄义上的内网就是指中小型的局域网外网:就是指在你办公网络之外能访问到的网络...

取消回复欢迎 发表评论: