Python爬虫+数据分析之影评分析 python影评数据分析报告
off999 2024-12-30 06:07 20 浏览 0 评论
本次通过猫眼电影,对春节贺岁大片【满江红】进行数据分析。而本次我们通过动态接口形式获取评论信息,静态HTML解析需要额外的字体解析,网上的教程也已经很全了,有兴趣的小伙伴们也可以多多冲浪或和本人探讨哈!
一、 接口分析
1. 目标站点:猫眼H5
2. 通过滑动查看评论信息,或点击评论进入评论子页面滑动,即可抓取到相关接口(浏览器F12工具中只能抓取到子评论接口,如果要整个评论的需要抓包工具配合或使用手机抓包)
3. 评论接口(已加密处理)
aHR0cHM6Ly9tLm1hb3lhbi5jb20vYXBvbGxvL2Fwb2xsb2FwaS9tbWRiL3JlcGxpZXMvY29tbWVudC8xMTY3MTI5MDg5Lmpzb24/X3ZfPXllcyZvZmZzZXQ9NDA=
二、 响应分析
- 通过子评论接口,可以分析出来相关字段(昵称、性别、评分、评论内容、评论点赞量、用户等级等)
{
"cmts": [
{
"approve": 0,
"assistAwardInfo": {
"avatar": "",
"celebrityId": 0,
"celebrityName": "",
"rank": 0,
"title": ""
},
"avatarurl": "https://img.meituan.net/maoyanuser/e6f7600fa2980a929accb602fde5abaa2776.jpg",
"channelId": 70001,
"content": "在电影院看真的很有氛围!背景音乐也很加分",
"deleted": false,
"id": 1171602285,
"ipLocName": "福建",
"nickName": "腿小菇",
"time": "2023-02-27 10:24",
"userId": 1322748722,
"userLevel": 3,
"vipInfo": "",
"vipType": 0
}
],
"ocm": {
"approve": 8657,
"approved": false,
"assistAwardInfo": {
"avatar": "",
"celebrityId": 0,
"celebrityName": "",
"rank": 0,
"title": ""
},
"authInfo": "",
"avatarurl": "https://img.meituan.net/avatar/66fb6e3ef190201864c732a03b5d9be924014.jpg",
"content": "刚看完满江红,真的好看,这是我看过最值的一部电影,反转反转再反转,真的是永远想不到下一步是什么,而且还很搞笑,搞笑又宏伟,真的描述不出来这个电影的好,都给我去看!满江红!入股不亏!!!!",
"id": 1167129089,
"ipLocName": "辽宁",
"isMajor": false,
"juryLevel": 0,
"majorType": 0,
"mvid": 1462626,
"nick": "Gpc126688235",
"nickName": "Gpc126688235",
"oppose": 0,
"pro": false,
"reply": 680,
"score": 5,
"spoiler": 0,
"supportComment": true,
"supportLike": true,
"sureViewed": 1,
"tagList": {
"fixed": [
{
"id": 1,
"name": "购票好评"
},
{
"id": 4,
"name": "购票"
},
{
"id": 6,
"name": "优质评价"
}
]
},
"time": "2023-01-22 12:19",
"userId": 3164097169,
"userLevel": 2,
"videoDuration": 0,
"vipInfo": "",
"vipType": 0
},
"total": 60
}
2. 完整comment接口响应示例
{
"data": {
"hotIds": [
1167280609,
1167187803
],
"total": 16521,
"comments": [
{
"avatarUrl": "https://img.meituan.net/maoyanuser/80cdf9a184d40eb9ecc0e5d170f3e45d11928.png",
"buyTicket": false,
"channelId": 3,
"content": "还行吧,没有看开心 ",
"delete": false,
"follow": false,
"gender": 1,
"id": 1171756165,
"imageUrls": [],
"ipLocName": "山东",
"likedByCurrentUser": false,
"major": false,
"movie": {
"id": 0,
"sc": 0
},
"movieId": 1462626,
"nick": "淘嘉豪",
"replyCount": 0,
"score": 9,
"showApprove": false,
"showVote": false,
"spoiler": false,
"startTime": "1677923460000",
"tagList": [
{
"id": 1,
"name": "购票好评"
},
{
"id": 4,
"name": "购票"
}
],
"time": 1677923460000,
"ugcType": 11,
"upCount": 0,
"userId": 71317227,
"userLevel": 2,
"vipType": 0
},
],
"t2total": 0,
"myComment": {}
},
"paging": {},
"ts": 1677956823197
}
三、数据解析
- 构造请求头,模拟数据请求
def get_film_data(offset = 0, filename="film"):
url = f'aHR0cHM6Ly9tLm1hb3lhbi5jb20vYXBvbGxvL2Fwb2xsb2FwaS9tbWRiL3JlcGxpZXMvY29tbWVudC8xMTY3MTI5MDg5Lmpzb24/X3ZfPXllcyZvZmZzZXQ9NDA='
headers = {
'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1'
}
cookies = {
'uuid_n_v':'v1',
'iuuid':'942C12B0DF4311E9ADA9C1C3B540BA45F066B2B3028841B8A0BC3544E4C0AD17',
'ci':'1%2C%E5%8C%97%E4%BA%AC',
'_lxsdk_cuid':'16d6c9b401ec8-0c6c86354bd8a9-5b123211-100200-16d6c9b401ec8',
'webp':'true',
'_lxsdk':'942C12B0DF4311E9ADA9C1C3B540BA45F066B2B3028841B8A0BC3544E4C0AD17'
}
# 开始页面请求,返回响应内容
response = requests.get(url,headers=headers,cookies=cookies).json()
# 总评论数
total = response['total']
print(total)
# 评论信息列表
cmts = response['cmts']
pprint(cmts)
for comment in cmts:
data = []
# 评论id
# id = comment['id']
# 评论内容
content = comment['content']
# 用户昵称
nickName = comment['nickName']
# 用户评分
score = comment['score']
# 评论时间
# startTime = comment['time']
# 用户id
userId = comment['userId']
# 用户等级
userLevel = comment['userLevel']
# 用户性别
gender = comment.get('gender',None)
data['nickName '] = nickName
data['gender'] = gender
data['score'] = score
data['content'] = content
data['userId '] = userId
data['userLevel'] = userLevel
save_data_csv(data,filename)
return total
2. 数据存储(这里为以csv演示)
def save_data_csv(data, file_name):
with open(file_name,'a',encoding='utf-8-sig',newline='')as fp:
# 创建写对象
writer = csv.writer(fp)
title = ['nickName ','gender','score','content','userId ','userLevel']
# 解决循环存储,表头重复问题
with open(file_name,'r',encoding='utf-8-sig',newline='')as fp:
# 创建读对象
reader = csv.reader(fp)
if not [row for row in reader]:
writer.writerow(title)
writer.writerow([data[i] for i in title])
else:
writer.writerow([data[i] for i in title])
print('*'*10+'保存完毕'+'*'*10)
四、数据可视化
- 影评分词
def wordcloud_analysis(file_name):
df = pd.read_csv(file_name, encoding='utf-8')
content = df['content'].to_string()
# 开始分词 使用jieba进行精确分词获取词语列表
words = jieba.lcut(content)
# 使用空格拼接获得字符串
words = ' '.join(words)
# 生成词云
# 读取图片,生成图片形状
mask_pic = np.array(Image.open('1.jpg'))
words_cloud = WordCloud(
background_color='white', # 词云图片的背景颜色
width=800, height=600, # 词云图片的宽度,默认400像素;词云图片的高度,默认200像素
font_path='msyh.ttf', # 词云指定字体文件的完整路径
max_words=200, # 词云图中最大词数,默认200
max_font_size=80, # 词云图中最大的字体字号,默认None,根据高度自动调节 min_font_size# 词云图中最小的字体字号,默认4号
font_step=1, # 词云图中字号步进间隔,默认1
random_state=30, # 设置有多少种随机生成状态,即有多少种配色方案
mask=mask_pic # 词云形状,默认None,即方形图
).generate(words) # 有jieba分词拼接的字符串生成词云
words_cloud.to_file('comment.png') # 保存词云为图片
# 使用plt显示词云
plt.imshow(words_cloud, interpolation='bilinear')
# 消除坐标轴
plt.axis('off')
plt.show()
2. 观看人群性别及评分占比分析(由于取得部分数据,不代表最终现实结果,勿纠)
def gender_pie_analysis(file_name):
df = pd.read_csv(file_name, encoding='utf-8')
print(df)
#
# # 1.观看人群性别
gender = df['gender'].value_counts()
print(gender)
# 饼图,标题:观看人群性别占比
# 调用自定义饼图函数
# 创建画布和轴
fig, ax = plt.subplots(figsize=(6, 6), dpi=100)
# plt.figure()
size = 0.5
# labels = data.index
ax.pie(gender, labels=['女','男','未知'], startangle=90, autopct='%.1f%%'
, colors=sns.color_palette('husl', len(gender)),
radius=1, # 饼图半径,默认为1
pctdistance=0.75, # 控制百分比显示位置
wedgeprops=dict(width=size, edgecolor='w'), # 控制甜甜圈的宽度
textprops=dict(fontsize=10) # 控制字号及颜色
)
ax.set_title("【满江红】观看人群性别占比", fontsize=15)
# plt.title(title)
plt.show()
3. 用户等级分析
def user_level_bar_analysis(file_name):
df = pd.read_csv(file_name, encoding='utf-8')
print(df)
userLevel = df['userLevel'].value_counts().sort_index()
print(userLevel)
x = userLevel.index
y = userLevel
fig, ax = plt.subplots()
plt.bar(x, y, color='#DE85B5')
# 柱状图标题
plt.title('评论用户等级数量分布柱状图')
plt.grid(True, axis='y', alpha=1)
for i, j in zip(x, y):
plt.text(i, j, '%d' % j, horizontalalignment='center', )
ax.spines['right'].set_visible(False)
ax.spines['top'].set_visible(False)
plt.show()
该篇文章只是从评分角度去做的数据分析,其实还可以从影视类型、年度电影Top、票房等角度进一步做数据分析。
该篇文章来自本人知乎号:梓羽Python
文章链接:https://zhuanlan.zhihu.com/p/611295606
相关推荐
- 每天一个 Python 库:datetime 模块全攻略,时间操作太丝滑!
-
在日常开发中,时间处理是绕不开的一块,比如:生成时间戳比较两个时间差转换为可读格式接口传参/前端展示/日志记录今天我们就用一个案例+代码+思维导图,带你完全搞定datetime模块的用法!...
- 字节跳动!2023全套Python入门笔记合集
-
学完python出来,已经工作3年啦,最近有很多小伙伴问我,学习python有什么用其实能做的有很多可以提高工作效率增强逻辑思维还能做爬虫网站数据分析等等!!最近也是整理了很多适合零基...
- 为什么你觉得Matplotlib用起来困难?因为你还没看过这个思维导图
-
前言Matplotlib是一个流行的Python库,可以很容易地用于创建数据可视化。然而,设置数据、参数、图形和绘图在每次执行新项目时都可能变得非常混乱和繁琐。而且由于应用不同,我们不知道选择哪一个图...
- Python新手必看!30分钟搞懂break/continue(附5个实战案例)
-
一、跳转语句的使命当程序需要提前结束循环或跳过特定迭代时,break和continue就是你的代码急刹按钮和跳步指令。就像在迷宫探险中:break=发现出口立即离开continue=跳过陷阱继续前进二...
- 刘心向学(24)Python中的数据类(python中5种简单的数据类型)
-
分享兴趣,传播快乐,增长见闻,留下美好!亲爱的您,这里是LearningYard新学苑。今天小编为大家带来文章“刘心向学(24)Python中的数据类”欢迎您的访问。Shareinterest,...
- 刘心向学(25)Python中的虚拟环境(python虚拟环境安装和配置)
-
分享兴趣,传播快乐,增长见闻,留下美好!亲爱的您,这里是LearningYard新学苑。今天小编为大家带来文章“刘心向学(25)Python中的虚拟环境”欢迎您的访问。Shareinte...
- 栋察宇宙(八):Python 中的 wordcloud 库学习介绍
-
分享乐趣,传播快乐,增长见识,留下美好。亲爱的您,这里是LearingYard学苑!今天小编为大家带来“Python中的wordcloud库学习介绍”欢迎您的访问!Sharethefun,...
- AI在用|ChatGPT、Claude 3助攻,1分钟GET高颜值思维导图
-
机器之能报道编辑:Cardinal以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人...
- 使用DeepSeek + Python开发AI思维导图应用,非常强!
-
最近基于Deepseek+PythonWeb技术开发了一个AI对话自动生成思维导图的应用,用来展示下如何基于低门槛的Python相关技术栈,高效结合deepseek实现从应用场景到实际应用的快速落地...
- 10幅思维导图告诉你 - Python 核心知识体系
-
首先,按顺序依次展示了以下内容的一系列思维导图:基础知识,数据类型(数字,字符串,列表,元组,字典,集合),条件&循环,文件对象,错误&异常,函数,模块,面向对象编程;接着,结合这些思维导图主要参考的...
- Python基础核心思维导图,让你轻松入门
-
Python基础核心思维导图【高清图文末获取】学习路线图就给大家看到这里了,需要的小伙伴下方获取获取方式看下方图片...
- Python基础核心思维导图,学会事半功倍
-
Python基础核心思维导图【高清图文末获取】学习路线图就给大家看到这里了,需要的小伙伴下方获取获取方式看下方图片...
- 硬核!288页Python核心知识笔记(附思维导图,建议收藏)
-
今天就给大家分享一份288页Python核心知识笔记,相较于部分朋友乱糟糟的笔记,这份笔记更够系统地总结相关知识,巩固Python知识体系。文末获取完整版PDF该笔记学习思维导图:目录内容展示【领取方...
- Python学习知识思维导图(高效学习)
-
Python学习知识思维导图python基础知识python数据类型条件循环列表元组字典集合字符串序列函数面向对象编程模块错误异常文件对象#python##python自学##编程#...
- 别找了!288页Python核心知识笔记(附思维导图,建议收藏)
-
今天就给大家分享一份288页Python核心知识笔记,相较于部分朋友乱糟糟的笔记,这份笔记更够系统地总结相关知识,巩固Python知识体系。文末获取完整版PDF该笔记学习思维导图:目录内容展示【领取方...
你 发表评论:
欢迎- 一周热门
- 最近发表
-
- 每天一个 Python 库:datetime 模块全攻略,时间操作太丝滑!
- 字节跳动!2023全套Python入门笔记合集
- 为什么你觉得Matplotlib用起来困难?因为你还没看过这个思维导图
- Python新手必看!30分钟搞懂break/continue(附5个实战案例)
- 刘心向学(24)Python中的数据类(python中5种简单的数据类型)
- 刘心向学(25)Python中的虚拟环境(python虚拟环境安装和配置)
- 栋察宇宙(八):Python 中的 wordcloud 库学习介绍
- AI在用|ChatGPT、Claude 3助攻,1分钟GET高颜值思维导图
- 使用DeepSeek + Python开发AI思维导图应用,非常强!
- 10幅思维导图告诉你 - Python 核心知识体系
- 标签列表
-
- python计时 (54)
- python安装路径 (54)
- python类型转换 (75)
- python进度条 (54)
- python的for循环 (56)
- python串口编程 (60)
- python写入txt (51)
- python读取文件夹下所有文件 (59)
- java调用python脚本 (56)
- python操作mysql数据库 (66)
- python字典增加键值对 (53)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python qt (52)
- python人脸识别 (54)
- python斐波那契数列 (51)
- python多态 (60)
- python命令行参数 (53)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- centos7安装python (53)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)