百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

微信聊天记录可视化工具详细介绍 微信2020聊天记录分析报告怎么弄

off999 2024-12-30 06:06 21 浏览 0 评论

功能概要

能做什么

用于对微信聊天记录进行可视化。

文本分析

双方聊天词汇的词云图

专属词汇分析(甲常用而乙不常用的词)

共用词汇分析(甲乙都喜欢用的词)

时间信息分析

月度消息数量变化

时均消息数量变化

下面这些图片都可以自动生成:


手机聊天记录同步到电脑

相信大部分小伙伴们的聊天记录都在手机里面,电脑的聊天记录不全。所以先把手机的聊天记录同步到电脑上,这个小伙伴们在换手机的时候可能有过体验:微信 - 设置 - 聊天 - 聊天记录迁移与备份 - 迁移。等个几分钟吧,等待时间取决于您的聊天记录量有多大。

软件界面操作

解密2:输入个人信息,获取信息。然后解密:开始启动!


然后就可以在好友中导出聊天记录了。为了减少乱码,请勿勾选图片、视频、表情包,导出的不含图片/视频/文件!


导出完毕,退出软件。在软件同一目录下会出现一个 data目录,点进去,data/聊天记录/ 下面会有个 csv 文件。大概长这个样子:


把这个csv文件拷贝到 WechatVisualization 的 input_data/ 目录里面。

注:使用软件的时候您可能会发现它也集成了导出年度报告这种分析+可视化的功能,但仔细看看它制作的年度报告就会发现太粗糙了,词云图的词语乱七八糟,没有做数据清洗。

安装python第三方库

使用者需要具备基本的 Python 知识(如何运行代码),电脑上已经安装了 Anaconda 或者 Python(版本>=3.7)。如果用 Anaconda,最好新建一个环境。

依次安装必要的第三方库:


安装方法不是本篇重点,基本上都是 pip install ,如果遇到问题请自行上网搜索解决方法,在此不赘。

修改配置文件

配置文件为 config.yml,用记事本就可以打开了,当然用代码编辑器更好,因为可以语法高亮。

里面可以自行设置的内容有

         # 输入数据
         # 下面这些文件都放在input_data目录下
         # 聊天记录
                msg_file: msg.csv
         # 微信表情中英文对照表
               emoji_file: emoji.txt
         # 停用词表,一般是没有实际意义的词,不想让被分析到的词都放在这里
              stopword_file: stopwords_hit_modified.txt
         # 词语转换表,用于合并意义相近的词,比如把“看到”、“看见”、“看看”都转换为“看”
              transform_file: transformDict.txt
         # 用户自定义词典,用于添加大部分字典没有的、但自己觉得不能分开的词,如i人、e人、腾讯会议
               user_dict_file: userDict.txt

         # 名字
         # name1是自己的名字
             name1: person 1
         # name2是对方的名字
              name2: person 2
        # name_both是双方共同的名字
           name_both: both

        # 局部参数
        # top_k是绘制前多少个词
        # 如果词或表情的出现频次低于word_min_count或emoji_min_count,就不会被分析
        # figsize是绘图图窗尺寸,第一个是宽度,第二个是高度
            word_specificity:
                 top_k: 25
             word_min_count: 2
                  figsize:
                    - 10
                    - 12

          emoji_specificity:
          emoji_min_count: 1
                 top_k: 5
                figsize:
                   - 10
                   - 12

        word_commonality:
          top_k: 25
          figsize:
          - 10
          - 12

          emoji_commonality:
          top_k: 5
          figsize:
         - 12
         - 12

         time_analysis:
            figsize:
          - 12
          - 8

运行代码

可以在代码编辑器中直接运行 main.py,也可以在命令行中(先激活之前创建的环境)运行 python main.py。

成功运行应显示如下信息:


生成的图片可以在当前目录的 figs 文件夹中找到。

修改输入文件

查看生成的图片,可能会有些词不是自己想要的,抑或有些自己想要的词被拆分了,此时到 input_data/ 目录下面修改各文件即可。这是一个不断迭代的过程,也就是数据清洗,比较耗时间。但没办法,如果想要质量比较高的结果,就耐心好好做一下,把数据清洗干净。

emoji.txt 是微信表情的中英文对照。微信表情在聊天记录中是以[捂脸]或者[Facepalm]的形式呈现的。我的聊天记录里面中英文的[xxx]都有,所以建立一个对照表,把所有的英文都替换成中文。如果您发现有的表情文字还是英文,可以在里面添加其中文,以便合并。 stopwords_hit_modified.txt 是停用词表。诸如“现在”、“进行”、“好像”这种(我自认为)没有实际意义的词,不应该被统计,直接把它们剔除。如果你觉得生成的结果里面有你不想看到的词,可以在这里添加。 transformDict.txt 把一些词转换成另一些词。诸如“看到”、“看见”、“看”、“看看”这些同义词可能被分别统计,完全没必要,我们可以把它们合并为一个词“看”。为此,只需在两栏中分别填写原词与转换词即可。注意,两栏用的是制表符(Tab)隔开。 usreDict 可以添加传统词典中没有的词,比如 “e人”、“i人”、“腾讯会议”等。如果不自行添加这些词,后果是它们可能会被拆成“e”、“i”、“人”、“腾讯”、“会议”这些词,这不是我们希望看到的。

报错解决

ValueError: shape mismatch: objects cannot be broadcast to a single shape

ValueError: The number of FixedLocator locations (5), usually from a call to set_ticks, does not match the number of ticklabels (1).

可能原因:出现上面两个报错,可能是因为相应位置的top_k或者min_count设置得太大了,而聊天记录量太少,导致没有这么多词可以绘制。

解决方法:考虑到这一点,我在每一小段程序运行时都打印了允许设置的最大参数值。如果打印双横线,代表该段参数设置无误,程序运行成功。您可以检查一下自己在相应位置的参数是否设置得太大了,然后适当减小。


项目流程


  1. parse.py 读取 input_data/ 中的文件,执行分词。生成 keywords.csv 放入 temp_files/ ,里面在原数据基础上新增两列,一列是被拆分的词,一列是提取出的微信表情。
  2. word_cloud.py 计算词频,生成 pickle 文件 keyword_count.pkl 放入 temp_files/ ,同时制作词云放入 figs/。
  3. 利用上一步计算的词频,计算词语专属性。图片放入 figs/。
  4. 计算微信表情出现频次,生成 pickle 文件 emoji_count.pkl 放入 temp_files/ 同时计算表情专属性。图片放入 figs/。
  5. 利用词频,计算词语共有性。图片放入 figs/。
  6. 利用表情频次,计算表情共有性。图片放入 figs/。
  7. 利用微信聊天记录原始文件,进行时间信息分析。图片放入 figs/。
  8. 计算方法
  9. 记自己发送过某个词 的次数为 ,对方发送过某个词 的次数为 。

专属性计算

专属性表明自己常说,对方不常说(反之亦然)。我对专属性的考虑是这样的,假如有三个词 A、B、C。


对于自己来说,显然A的专属性应该是最高的。B词的话,两个人虽然也是差了4次,但是基数比较大,差了4次其实无明显对比。C的话,基数太小,要说C是自己专属的词汇,可靠性不高。

共有性计算

共用性表明两个人都常说某个词。所以首先排除那些有一方从来没说过的词。为此,首先对双方说过的词取交集。

现在我们还是假设有三个词 A、B、C。


B词被自己说过的次数比对方多得多,共有性显然很低。C词虽然双方说过的次数差不多,但基数太小,不能得出可靠结论。所以A词共有性最高。那怎么算呢?

共有性是专属性的反面,那我们能不能用专属性的倒数呢?我觉得不好,一方面因为分母是 ,容易出现零值;另一方面对于A词(50,50)和C词(1,1)不能做很好地区分。

为此,我使用了调和平均值:


为什么这里使用调和平均值而不使用其他平均值呢,因为调和平均值是四大平均值中最偏向较小数的那个,“共有性”就是强调两个人都要经常说,不能光一个人说另一个人不说,也即一方说得再多,对于共有性的影响也很小,比如B词(1000,1)。

用调和平均值可以确保A词具有最大的共有性。

以上就是微信聊天记录可视化工具的介绍,喜欢文章,关注小编,后期会有更多的科技资讯。

相关推荐

让 Python 代码飙升330倍:从入门到精通的四种性能优化实践

花下猫语:性能优化是每个程序员的必修课,但你是否想过,除了更换算法,还有哪些“大招”?这篇文章堪称典范,它将一个普通的函数,通过四套组合拳,硬生生把性能提升了330倍!作者不仅展示了“术”,更传授...

7 段不到 50 行的 Python 脚本,解决 7 个真实麻烦:代码、场景与可复制

“本文整理自开发者AbdurRahman在Stackademic的真实记录,所有代码均经过最小化删减,确保在50行内即可运行。每段脚本都对应一个日常场景,拿来即用,无需额外依赖。一、在朋...

Python3.14:终于摆脱了GIL的限制

前言Python中最遭人诟病的设计之一就是GIL。GIL(全局解释器锁)是CPython的一个互斥锁,确保任何时刻只有一个线程可以执行Python字节码,这样可以避免多个线程同时操作内部数据结...

Python Web开发实战:3小时从零搭建个人博客

一、为什么选Python做Web开发?Python在Web领域的优势很突出:o开发快:Django、Flask这些框架把常用功能都封装好了,不用重复写代码,能快速把想法变成能用的产品o需求多:行业...

图解Python编程:从入门到精通系列教程(附全套速查表)

引言本系列教程展开讲解Python编程语言,Python是一门开源免费、通用型的脚本编程语言,它上手简单,功能强大,它也是互联网最热门的编程语言之一。Python生态丰富,库(模块)极其丰富,这使...

Python 并发编程实战:从基础到实战应用

并发编程是提升Python程序效率的关键技能,尤其在处理多任务场景时作用显著。本文将系统介绍Python中主流的并发实现方式,帮助你根据场景选择最优方案。一、多线程编程(threading)核...

吴恩达亲自授课,适合初学者的Python编程课程上线

吴恩达教授开新课了,还是亲自授课!今天,人工智能著名学者、斯坦福大学教授吴恩达在社交平台X上发帖介绍了一门新课程——AIPythonforBeginners,旨在从头开始讲授Python...

Python GUI 编程:tkinter 初学者入门指南——Ttk 小部件

在本文中,将介绍Tkinter.ttk主题小部件,是常规Tkinter小部件的升级版本。Tkinter有两种小部件:经典小部件、主题小部件。Tkinter于1991年推出了经典小部件,...

Python turtle模块编程实践教程

一、模块概述与核心概念1.1turtle模块简介定义:turtle是Python标准库中的2D绘图模块,基于Logo语言的海龟绘图理念实现。核心原理:坐标系系统:原点(0,0)位于画布中心X轴:向右...

Python 中的asyncio 编程入门示例-1

Python的asyncio库是用于编写并发代码的,它使用async/await语法。它为编写异步程序提供了基础,通过非阻塞调用高效处理I/O密集型操作,适用于涉及网络连接、文件I/O...

30天学会Python,开启编程新世界

在当今这个数字化无处不在的时代,Python凭借其精炼的语法架构、卓越的性能以及多元化的应用领域,稳坐编程语言排行榜的前列。无论是投身于数据分析、人工智能的探索,还是Web开发的构建,亦或是自动化办公...

Python基础知识(IO编程)

1.文件读写读写文件是Python语言最常见的IO操作。通过数据盘读写文件的功能都是由操作系统提供的,读写文件就是请求操作系统打开一个文件对象(通常称为文件描述符),然后,通过操作系统提供的接口从这个...

Python零基础到精通,这8个入门技巧让你少走弯路,7天速通编程!

Python学习就像玩积木,从最基础的块开始,一步步搭建出复杂的作品。我记得刚开始学Python时也是一头雾水,走了不少弯路。现在回头看,其实掌握几个核心概念,就能快速入门这门编程语言。来聊聊怎么用最...

一文带你了解Python Socket 编程

大家好,我是皮皮。前言Socket又称为套接字,它是所有网络通信的基础。网络通信其实就是进程间的通信,Socket主要是使用IP地址,协议,端口号来标识一个进程。端口号的范围为0~65535(用户端口...

Python-面向对象编程入门

面向对象编程是一种非常流行的编程范式(programmingparadigm),所谓编程范式就是程序设计的方法论,简单的说就是程序员对程序的认知和理解以及他们编写代码的方式。类和对象面向对象编程:把...

取消回复欢迎 发表评论: