百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

Python爬虫+数据分析之影评分析 python影评数据分析报告

off999 2024-12-30 06:07 39 浏览 0 评论

本次通过猫眼电影,对春节贺岁大片【满江红】进行数据分析。而本次我们通过动态接口形式获取评论信息,静态HTML解析需要额外的字体解析,网上的教程也已经很全了,有兴趣的小伙伴们也可以多多冲浪或和本人探讨哈!

一、 接口分析

1. 目标站点:猫眼H5

2. 通过滑动查看评论信息,或点击评论进入评论子页面滑动,即可抓取到相关接口(浏览器F12工具中只能抓取到子评论接口,如果要整个评论的需要抓包工具配合或使用手机抓包)

3. 评论接口(已加密处理)

aHR0cHM6Ly9tLm1hb3lhbi5jb20vYXBvbGxvL2Fwb2xsb2FwaS9tbWRiL3JlcGxpZXMvY29tbWVudC8xMTY3MTI5MDg5Lmpzb24/X3ZfPXllcyZvZmZzZXQ9NDA=


二、 响应分析

  1. 通过子评论接口,可以分析出来相关字段(昵称、性别、评分、评论内容、评论点赞量、用户等级等)
{
    "cmts": [
        {
            "approve": 0,
            "assistAwardInfo": {
                "avatar": "",
                "celebrityId": 0,
                "celebrityName": "",
                "rank": 0,
                "title": ""
            },
            "avatarurl": "https://img.meituan.net/maoyanuser/e6f7600fa2980a929accb602fde5abaa2776.jpg",
            "channelId": 70001,
            "content": "在电影院看真的很有氛围!背景音乐也很加分",
            "deleted": false,
            "id": 1171602285,
            "ipLocName": "福建",
            "nickName": "腿小菇",
            "time": "2023-02-27 10:24",
            "userId": 1322748722,
            "userLevel": 3,
            "vipInfo": "",
            "vipType": 0
        }
    ],
    "ocm": {
        "approve": 8657,
        "approved": false,
        "assistAwardInfo": {
            "avatar": "",
            "celebrityId": 0,
            "celebrityName": "",
            "rank": 0,
            "title": ""
        },
        "authInfo": "",
        "avatarurl": "https://img.meituan.net/avatar/66fb6e3ef190201864c732a03b5d9be924014.jpg",
        "content": "刚看完满江红,真的好看,这是我看过最值的一部电影,反转反转再反转,真的是永远想不到下一步是什么,而且还很搞笑,搞笑又宏伟,真的描述不出来这个电影的好,都给我去看!满江红!入股不亏!!!!",
        "id": 1167129089,
        "ipLocName": "辽宁",
        "isMajor": false,
        "juryLevel": 0,
        "majorType": 0,
        "mvid": 1462626,
        "nick": "Gpc126688235",
        "nickName": "Gpc126688235",
        "oppose": 0,
        "pro": false,
        "reply": 680,
        "score": 5,
        "spoiler": 0,
        "supportComment": true,
        "supportLike": true,
        "sureViewed": 1,
        "tagList": {
            "fixed": [
                {
                    "id": 1,
                    "name": "购票好评"
                },
                {
                    "id": 4,
                    "name": "购票"
                },
                {
                    "id": 6,
                    "name": "优质评价"
                }
            ]
        },
        "time": "2023-01-22 12:19",
        "userId": 3164097169,
        "userLevel": 2,
        "videoDuration": 0,
        "vipInfo": "",
        "vipType": 0
    },
    "total": 60
}

2. 完整comment接口响应示例

{
    "data": {
        "hotIds": [    
            1167280609,
            1167187803
        ],
        "total": 16521,
        "comments": [
            {
                "avatarUrl": "https://img.meituan.net/maoyanuser/80cdf9a184d40eb9ecc0e5d170f3e45d11928.png",
                "buyTicket": false,
                "channelId": 3,
                "content": "还行吧,没有看开心 ",
                "delete": false,
                "follow": false,
                "gender": 1,
                "id": 1171756165,
                "imageUrls": [],
                "ipLocName": "山东",
                "likedByCurrentUser": false,
                "major": false,
                "movie": {
                    "id": 0,
                    "sc": 0
                },
                "movieId": 1462626,
                "nick": "淘嘉豪",
                "replyCount": 0,
                "score": 9,
                "showApprove": false,
                "showVote": false,
                "spoiler": false,
                "startTime": "1677923460000",
                "tagList": [
                    {
                        "id": 1,
                        "name": "购票好评"
                    },
                    {
                        "id": 4,
                        "name": "购票"
                    }
                ],
                "time": 1677923460000,
                "ugcType": 11,
                "upCount": 0,
                "userId": 71317227,
                "userLevel": 2,
                "vipType": 0
            },
        ],
        "t2total": 0,
        "myComment": {}
    },
    "paging": {},
    "ts": 1677956823197
}

三、数据解析

  1. 构造请求头,模拟数据请求
def get_film_data(offset = 0, filename="film"):
    url = f'aHR0cHM6Ly9tLm1hb3lhbi5jb20vYXBvbGxvL2Fwb2xsb2FwaS9tbWRiL3JlcGxpZXMvY29tbWVudC8xMTY3MTI5MDg5Lmpzb24/X3ZfPXllcyZvZmZzZXQ9NDA='
    headers = {
        'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1'
    }

    cookies = {
        'uuid_n_v':'v1',
        'iuuid':'942C12B0DF4311E9ADA9C1C3B540BA45F066B2B3028841B8A0BC3544E4C0AD17',
        'ci':'1%2C%E5%8C%97%E4%BA%AC',
        '_lxsdk_cuid':'16d6c9b401ec8-0c6c86354bd8a9-5b123211-100200-16d6c9b401ec8',
        'webp':'true',
        '_lxsdk':'942C12B0DF4311E9ADA9C1C3B540BA45F066B2B3028841B8A0BC3544E4C0AD17'
        }
    # 开始页面请求,返回响应内容
    response = requests.get(url,headers=headers,cookies=cookies).json()
    # 总评论数
    total = response['total']
    print(total)
    # 评论信息列表
    cmts = response['cmts']
    pprint(cmts)
    for comment in cmts:
        data = []
        # 评论id
        # id = comment['id']
        # 评论内容
        content = comment['content']
        # 用户昵称
        nickName = comment['nickName']
        # 用户评分
        score = comment['score']
        # 评论时间
        # startTime = comment['time']
        # 用户id
        userId = comment['userId']
        # 用户等级
        userLevel = comment['userLevel']
        # 用户性别
        gender = comment.get('gender',None)
        data['nickName '] = nickName 
        data['gender'] = gender
        data['score'] = score
        data['content'] = content
        data['userId '] = userId 
        data['userLevel'] = userLevel
        save_data_csv(data,filename)
    return total

2. 数据存储(这里为以csv演示)

def save_data_csv(data, file_name):
    with open(file_name,'a',encoding='utf-8-sig',newline='')as fp:
        # 创建写对象
        writer = csv.writer(fp)
        title = ['nickName ','gender','score','content','userId ','userLevel']
        # 解决循环存储,表头重复问题
        with open(file_name,'r',encoding='utf-8-sig',newline='')as fp:
            # 创建读对象
            reader = csv.reader(fp)
            if not [row for row in reader]:
                writer.writerow(title)
                writer.writerow([data[i] for i in title])
            else:
                writer.writerow([data[i] for i in title])

    print('*'*10+'保存完毕'+'*'*10)

四、数据可视化

  1. 影评分词
def wordcloud_analysis(file_name):
    df = pd.read_csv(file_name, encoding='utf-8')
    content = df['content'].to_string()
    # 开始分词 使用jieba进行精确分词获取词语列表
    words = jieba.lcut(content)
    # 使用空格拼接获得字符串
    words = ' '.join(words)

    # 生成词云
    # 读取图片,生成图片形状
    mask_pic = np.array(Image.open('1.jpg'))
    words_cloud = WordCloud(
        background_color='white',  # 词云图片的背景颜色
        width=800, height=600,  # 词云图片的宽度,默认400像素;词云图片的高度,默认200像素
        font_path='msyh.ttf',  # 词云指定字体文件的完整路径
        max_words=200,  # 词云图中最大词数,默认200
        max_font_size=80,  # 词云图中最大的字体字号,默认None,根据高度自动调节 min_font_size# 词云图中最小的字体字号,默认4号
        font_step=1,  # 词云图中字号步进间隔,默认1
        random_state=30,  # 设置有多少种随机生成状态,即有多少种配色方案
        mask=mask_pic  # 词云形状,默认None,即方形图
    ).generate(words)  # 有jieba分词拼接的字符串生成词云
    words_cloud.to_file('comment.png')  # 保存词云为图片
    # 使用plt显示词云
    plt.imshow(words_cloud, interpolation='bilinear')
    # 消除坐标轴
    plt.axis('off')
    plt.show()

2. 观看人群性别及评分占比分析(由于取得部分数据,不代表最终现实结果,勿纠)

def gender_pie_analysis(file_name):
    df = pd.read_csv(file_name, encoding='utf-8')
    print(df)
    #
    # # 1.观看人群性别
    gender = df['gender'].value_counts()
    print(gender)
    # 饼图,标题:观看人群性别占比
    # 调用自定义饼图函数
    # 创建画布和轴
    fig, ax = plt.subplots(figsize=(6, 6), dpi=100)
    # plt.figure()
    size = 0.5
    # labels = data.index
    ax.pie(gender, labels=['女','男','未知'], startangle=90, autopct='%.1f%%'
           , colors=sns.color_palette('husl', len(gender)),
           radius=1,  # 饼图半径,默认为1
           pctdistance=0.75,  # 控制百分比显示位置
           wedgeprops=dict(width=size, edgecolor='w'),  # 控制甜甜圈的宽度
           textprops=dict(fontsize=10)  # 控制字号及颜色
           )
    ax.set_title("【满江红】观看人群性别占比", fontsize=15)
    # plt.title(title)
    plt.show()

3. 用户等级分析

def user_level_bar_analysis(file_name):
    df = pd.read_csv(file_name, encoding='utf-8')
    print(df)
    userLevel = df['userLevel'].value_counts().sort_index()
    print(userLevel)

    x = userLevel.index
    y = userLevel
    fig, ax = plt.subplots()
    plt.bar(x, y, color='#DE85B5')
    # 柱状图标题
    plt.title('评论用户等级数量分布柱状图')
    plt.grid(True, axis='y', alpha=1)
    for i, j in zip(x, y):
        plt.text(i, j, '%d' % j, horizontalalignment='center', )
    ax.spines['right'].set_visible(False)
    ax.spines['top'].set_visible(False)

    plt.show()

该篇文章只是从评分角度去做的数据分析,其实还可以从影视类型、年度电影Top、票房等角度进一步做数据分析。

该篇文章来自本人知乎号:梓羽Python

文章链接:https://zhuanlan.zhihu.com/p/611295606

相关推荐

高仿ios主题全套软件(超高仿ios安卓主题)

IPhone12启动器全套仿Ios12桌面主题是一款能够让大家的安卓手机秒变苹果机的系统工具,IPhone12启动器可让你的手机直接变成IPhone12的桌面。从主题,桌面,Ui以及系统内的各种细节,...

win10在哪里下载软件最好(win10软件在哪下载比较好)

1、点击Win10系统的开始菜单,然后在点击应用商店;2、打开Win10应用商店后,在搜索框里输入想要搜索的应用软件,然后点击检索;3、点击搜索到的应用,点击安装;4、点击安装后,系统会提示要切换到这...

电脑软件怎么安装(电脑软件怎么安装到手机上)

电脑怎么安装excel软件方法/步骤:1.在电脑左下角找到这个小圆圈,单击小圆圈打开搜索栏。搜索MicrosoftStore。2.在右上角找到搜索,单击搜索。在搜索中输入Excel。回车键打开。3....

u盘win7系统安装盘(u盘里安装win7系统)

有些软件我们从网上下载安装时需要破解密码或者我们没有网时,直接需要把安装的软件,传到别的电脑,具体操作如下:1。直接把另一台电脑桌面上的软件复制或发送的优盘里,其实那只是一个快捷方式2.以ps软件为例...

语音输入法哪个好用(语音输入法免费版下载安装)

日常基本使用的讯飞和搜狗都还不错,对比来看的话,讯飞相对会更好一些。讯飞输入法在键盘输入方面进步非常快,功能也比较全面。单纯的语音方面,讯飞的稍微好一点,例如一些标点、断句之类处理的更加到位。讯飞支持...

手机app应用市场(手机里面的应用市场)

360手机助手是android智能手机的手机管理专家。提供海量的游戏、软件、音乐、小说、视频、图片,通过它轻松下载、安装、管理手机资源。所有提供信息资源,全部经过360安全检测中心的审核认证,绿色无毒...

开局最强系统(开局最强系统txt奇书网)
开局最强系统(开局最强系统txt奇书网)

《最强奶爸系统》作者:最美猪猪小说简介同学甲:“我找到了月入七千的工作。”同学乙:“我找到了月入一万的工作。叶辰,你呢?”叶辰:“我老婆…是万亿市值超凡集团的老板,给我生了10个孩子。”同学们:???叶辰遭前女友陷害,阴差阳错邂逅了一位美女...

2026-01-03 07:03 off999

win10系统下载器官网(下载windows10官方)

如果您想要在Windows10上下载游戏辅助,可以按照以下步骤进行:1.打开您选择的游戏辅助下载网站,例如:GameCopyWorld或MegaGames。这些网站提供许多破解游戏的补丁和辅助工具...

photoshop官方网站进入(photoshop官网入口)

那是因为网站采用了安全加密技术,安装了SSL证书,说明此网站为安全的页面,其信息已经经过加密措施。显示https的网站,网址上还会有显示一个小锁头,也是安全标志。1.先用Photoshop做一个网页图...

windows7旗舰版主机多少钱(windows7旗舰版电脑多少钱一台)

其实这两个版本没有太大的差别,只是功能上有少量差别,旗舰版服务开启的要比专业版本服务开启的多几个,至于朋友们说的专业快速度比旗舰版快,或旗舰版比专业版速度快,个人认为速度都是一样只是功能上的差别,如果...

小米平板(小米平板怎么分屏)

小米平板的简单使用方法:1、首先给小米平板给充电,确保电量充足。2、长按住电源键启动小米平板,进入设备初始设置界面。3、根据屏幕上的提示信息,设置平板电脑联网、绑定小米账号等,直到完成即可正常使用了。...

移动硬盘一直在加载无法读取

移动硬盘电源灯亮说明硬盘有供电,无法识别此移动硬盘时,可按如下步骤进行排查:1)将移动硬盘拔下后,更换硬盘盒再接上确认。2)更换过硬盘盒还是无法识别的话,移动硬盘就损坏了,需要进行更换;3)若更换过硬...

下载软件的app大全(下载软件的app大全免费)

中国最常见的目前是迅雷下载软件。官网可以下载到正常的免费版本。他支持ftphttpbt磁力链接等多种形式的下载。国外的有bitcome。电驴和电骡等多种形式的下载软件。他们都可以满足日常的下载要求,...

wifi贴小程序搭建需要多少钱

回答如下:要搭建自己的WiFi小程序,需要以下步骤:1.获得开发资格:首先需要注册成为开发者,获得小程序的开发资格。2.编写代码:使用微信小程序的开发工具,编写WiFi小程序的前端和后端代码。3....

外网服务器地址(外网服务器地址ip大全)

要弄懂这个问题,你首先要了解什么叫内网,什么叫外网,什么叫服务器,服务器在网络中所扮演的是什么角色,内网:就是指内部网络,窄义上的内网就是指中小型的局域网外网:就是指在你办公网络之外能访问到的网络...

取消回复欢迎 发表评论: