用 Python 分析微信群聊记录,是怎样一种体验?
off999 2024-12-30 06:06 33 浏览 0 评论
优质文章,第一时间送达!
1. 场景
前几天,有一位小伙伴在后台给我留言,说自己有几十个微信群,自己精力有限,没法看过来,想要筛选一些高质量的群,让我是否能帮忙想想办法。
其实,微信群里的所有聊天记录都在手机本地文件夹内,只需要导出来进行解密,然后来一波数据分析,就可以帮他筛选出高质量的社群。
本篇文章将带大家用 Python 一步步来实现这个功能。
2. 实现步骤
第 1 步,导出微信聊天记录数据库
首先,我们使用一部 Root 后的手机或者模拟器登录微信,找到微信聊天记录数据库,然后导出到本地。
数据库文件的完整路径如下:
# 微信聊天记录数据库完整路径
/data/data/com.tencent.mm/MicroMsg/[当前登录微信的随机字符串]/EnMicroMsg.db
需要注意的是,如果当前设备没有 Root,可以选择群聊消息进行一次迁移,然后从 Root 设备或模拟器中导出数据库。
第 2 步,获取数据库的密码
微信数据库的密码组成形式为:手机 IMEI + 微信 UIN,然后 md5 加密(32 位小写)的前 7 个数字。
其中,手机的 IMEI 可以通过 *#06# 获取,如果是双卡手机,需要自己做一下判断。
微信的 UIN 在下面配置文件中,找到 name 属性为 default_uin 的 value 值,即为 UIN
# 当前登录微信的配置文件
/data/data/com.tencent.mm/shared_prefs/system_config_prefs.xml最后,然后将 IMET 和 UIN 组成字符串,然后利用 MD5 进行加密,取 32 位小写的前 7 位即为微信数据库的密码。
第 3 步,破解数据库
由于微信数据库是使用 SQLCipher 生成,所以要先安装 sqlcipher 命令行文件
# 安装sqlcipher命令行(Mac)
brew install sqlcipher
# Win可以去下载sqlcipher命令行文件
然后,输入数据库的密码及解密方式等,导出破解后的数据库。
第 4 步,分析数据库
推荐使用 SQLiteSutdio 打开并分析上面破解后的数据库,重点查看 message、rcontact、chatroom 这 3 张表。
微信所有的文字聊天记录都存放在 mesage 数据表中,包含:聊天内容、发送者、消息类型、创建时间等
rcontact 为微信通讯录表,包含:微信 ID、昵称、备注名等
chatroom 是群聊信息表,包含:群聊 ID、成员列表等
第 5 步,Python 打开数据库并封装
使用 sqlite3 连接本地数据库文件,获取数据库对象和游标对象
import sqlite3
def __init__(self, db_path="./weixin.db"):
"""
本地数据库初始化
"""
self.db = sqlite3.connect(db_path)
self.cursor = self.db.cursor
接着,对数据库常用的操作,包含:增删改查,进行封装操作。
def execute(self, sql, param=None):
"""
sql: Sql语句,包含:增、删、改
param:数据,可以为列表、字典,也可以为空
"""
try:
if param is None:
self.cursor.execute(sql)
else:
if type(param) is list:
self.cursor.executemany(sql, param)
else:
self.cursor.execute(sql, param)
count = self.db.total_changes
self.db.commit
except Exception as e:
print(e)
return False, e
# 返回结果
return True if count > 0 else False
def query(self, sql, param=None):
"""
查询语句
sql:Sql语句
param:参数,可以包含空
retutn:成功返回True
"""
if param is None:
self.cursor.execute(sql)
else:
self.cursor.execute(sql, param)
# 返回查询的结果
return self.cursor.fetchall
第 6 步,通过群聊名称获取群聊 ID
根据群聊昵称,使用 Sql 语句查询 rcontact 表,可以获取群聊的 ID 值
def __get_chartroom_id(self):
"""
获取群聊的id
:return:
"""
res = self.db.query('select username from rcontact where nickname=?;', (self.chatroom_name,))
# 群聊id
chatroom_id = res[0][0]
return chatroom_id
第 7 步,获取群聊消息
拥有群聊 ID 之后,紧接着查询 message 表,获取当前群聊的所有消息内容。
# message表:聊天记录表
# isSend=0:对方发送的;isSend=1:自己发送的
sql = "SELECT content FROM message WHERE talker='{}' and isSend=0".format(chatroom_id)
# 查询表,获取所有的聊天记录
result = self.db.query(sql)
为了获取有效的消息内容,可以清洗掉自己发送的消息、系统消息、红包消息等内容
# 循环查询到的所有的消息
for item in result:
# 过滤数据
if not item or not item[0] or item[0].find('xml') != -1 or item[0].find('sysmsg') != -1 or item[0].find(
'<msg>') != -1 or item[0].find('chatroom') != -1 or item[0].find('weixinhongbao') != -1:
continue
# 过滤掉自己发送的内容,不包含:
temps = item[0].split(':')
if len(temps) < 2:
# print('自己发送的内容:' + item[0])
continue
# 每一条聊天记录,过滤掉发送者,只保留消息正文
# 发送者
send_from = item[0].split(':')[0]
# 发送内容
send_msg = "".join(item[0].split(':')[1:]).strip.replace("\"", "")
# 过长的消息,也过滤掉
if len(send_msg) > 200:
continue
对于群其他成员发送的内容,再过滤掉消息内容的前半部分,只保留消息正文
第 8 步,生成词云
使用 jieba 对群内有效的消息进行分词,然后使用 wordcloud 生成词云图。
def generate_wordcloud(self, word):
"""
生成词云
:param word:
:return:
"""
img = WordCloud(font_path="./DroidSansFallbackFull.ttf", width=2000, height=2000,
margin=2, collocations=False).generate(word)
plt.imshow(img)
plt.axis("off")
plt.show
# 保存图片
img.to_file("{}.png".format("群聊"))
# 分词
temp = " ".join(jieba.cut(words, cut_all=True))
# 生成词云
generate_wordcloud(temp)
第 9 步,新建排名表,插入数据
为了统计群聊活跃度排名,我们需要新建一张表,包含:id、微信昵称、消息内容 3 个字段。
def __create_top_table(self):
"""
创建Top表
:return:
"""
# 创建Top表,如果存在就不重新创建
result = self.db.execute(
"CREATE TABLE IF NOT EXISTS top(uid integer primary key,name varchar(200),msg varchar(200))")
接着,将上一步的每一条消息中的发送者 ID、发送内容 2 个字段插入到新建的 Top 表内
# 定义一个列表,加入所有要统计的数据
msg_pre =
for item in result:
# 发送者
send_from = item[0].split(':')[0]
# 发送内容
send_msg = "".join(item[0].split(':')[1:]).strip.replace("\"", "")
msg_pre.append((send_from, send_msg))
# 把要统计的数据,插入到top表中
self.db.execute("insert into top(uid,name,msg) values (,?,?);", msg_pre)
第 10 步,获取活跃度排名并可视化
从 Top 数据表中,通过微信昵称查询出每一位成员发言的次数,并保存到一个列表中
def get_top_partner(self):
"""
排名前15的成员
:return:
"""
sql = "SELECT name as 姓名,COUNT(*) as times FROM top GROUP BY name ORDER BY times DESC limit %d;" % self.top_num
result = self.db.query(sql)
for item in result:
# 用户id
id = item[0]
# 发言次数
count = item[1]
# 获取用户的昵称,即:微信昵称
username = self.get_username(id)
self.top_data.append({
'username': username,
'count': count
})
最后,去除微信昵称的特殊符号,使用 pyecharts 将数据可视化。
def draw_image(self):
"""
数据可视化
:return:
"""
usernames =
counts =
for user in self.top_data:
# 去除昵称中的特殊符号
usernames.append(get_ava_string(user.get('username').strip)[0:8])
counts.append(user.get('count'))
def bar_chart -> Bar:
c = (
Bar
.add_xaxis(usernames)
.add_yaxis("活跃度", counts)
.reversal_axis
.set_series_opts(label_opts=opts.LabelOpts(position="right"))
.set_global_opts(title_opts=opts.TitleOpts(title="最活跃的%d个小伙伴" % self.top_num))
)
return c
# 需要安装 snapshot-selenium 或者 snapshot-phantomjs
make_snapshot(driver, bar_chart.render, "bar.png")3. 最后
上面的操作,通过生成的词云了解到当前群聊过去一段时间都在聊的话题及价值,通过对聊天记录的数据分析,获取到微信群聊活跃度排名。
当然,也可以分析群成员潜水排名及某一位群成员的数据分析。
我已经将全部源码上传到后台,关注公众号后回复「 微信群聊」即可获得全部源码。
回复下方「关键词」,获取优质资源
回复关键词「 pybook03」,立即获取主页君与小伙伴一起翻译的《Think Python 2e》电子版
回复关键词「入门资料」,立即获取主页君整理的 10 本 Python 入门书的电子版
回复关键词「m」,立即获取Python精选优质文章合集
回复关键词「」,将数字替换成 0 及以上数字,有惊喜好礼哦~
题图:pexels,CC0 授权。
好文章,我在看??
相关推荐
- 电脑软件怎么安装(电脑软件怎么安装到手机上)
-
电脑怎么安装excel软件方法/步骤:1.在电脑左下角找到这个小圆圈,单击小圆圈打开搜索栏。搜索MicrosoftStore。2.在右上角找到搜索,单击搜索。在搜索中输入Excel。回车键打开。3....
- u盘win7系统安装盘(u盘里安装win7系统)
-
有些软件我们从网上下载安装时需要破解密码或者我们没有网时,直接需要把安装的软件,传到别的电脑,具体操作如下:1。直接把另一台电脑桌面上的软件复制或发送的优盘里,其实那只是一个快捷方式2.以ps软件为例...
- 语音输入法哪个好用(语音输入法免费版下载安装)
-
日常基本使用的讯飞和搜狗都还不错,对比来看的话,讯飞相对会更好一些。讯飞输入法在键盘输入方面进步非常快,功能也比较全面。单纯的语音方面,讯飞的稍微好一点,例如一些标点、断句之类处理的更加到位。讯飞支持...
- 手机app应用市场(手机里面的应用市场)
-
360手机助手是android智能手机的手机管理专家。提供海量的游戏、软件、音乐、小说、视频、图片,通过它轻松下载、安装、管理手机资源。所有提供信息资源,全部经过360安全检测中心的审核认证,绿色无毒...
-
- 开局最强系统(开局最强系统txt奇书网)
-
《最强奶爸系统》作者:最美猪猪小说简介同学甲:“我找到了月入七千的工作。”同学乙:“我找到了月入一万的工作。叶辰,你呢?”叶辰:“我老婆…是万亿市值超凡集团的老板,给我生了10个孩子。”同学们:???叶辰遭前女友陷害,阴差阳错邂逅了一位美女...
-
2026-01-03 07:03 off999
- win10系统下载器官网(下载windows10官方)
-
如果您想要在Windows10上下载游戏辅助,可以按照以下步骤进行:1.打开您选择的游戏辅助下载网站,例如:GameCopyWorld或MegaGames。这些网站提供许多破解游戏的补丁和辅助工具...
- photoshop官方网站进入(photoshop官网入口)
-
那是因为网站采用了安全加密技术,安装了SSL证书,说明此网站为安全的页面,其信息已经经过加密措施。显示https的网站,网址上还会有显示一个小锁头,也是安全标志。1.先用Photoshop做一个网页图...
- windows7旗舰版主机多少钱(windows7旗舰版电脑多少钱一台)
-
其实这两个版本没有太大的差别,只是功能上有少量差别,旗舰版服务开启的要比专业版本服务开启的多几个,至于朋友们说的专业快速度比旗舰版快,或旗舰版比专业版速度快,个人认为速度都是一样只是功能上的差别,如果...
- 小米平板(小米平板怎么分屏)
-
小米平板的简单使用方法:1、首先给小米平板给充电,确保电量充足。2、长按住电源键启动小米平板,进入设备初始设置界面。3、根据屏幕上的提示信息,设置平板电脑联网、绑定小米账号等,直到完成即可正常使用了。...
- 移动硬盘一直在加载无法读取
-
移动硬盘电源灯亮说明硬盘有供电,无法识别此移动硬盘时,可按如下步骤进行排查:1)将移动硬盘拔下后,更换硬盘盒再接上确认。2)更换过硬盘盒还是无法识别的话,移动硬盘就损坏了,需要进行更换;3)若更换过硬...
- 下载软件的app大全(下载软件的app大全免费)
-
中国最常见的目前是迅雷下载软件。官网可以下载到正常的免费版本。他支持ftphttpbt磁力链接等多种形式的下载。国外的有bitcome。电驴和电骡等多种形式的下载软件。他们都可以满足日常的下载要求,...
- wifi贴小程序搭建需要多少钱
-
回答如下:要搭建自己的WiFi小程序,需要以下步骤:1.获得开发资格:首先需要注册成为开发者,获得小程序的开发资格。2.编写代码:使用微信小程序的开发工具,编写WiFi小程序的前端和后端代码。3....
- 外网服务器地址(外网服务器地址ip大全)
-
要弄懂这个问题,你首先要了解什么叫内网,什么叫外网,什么叫服务器,服务器在网络中所扮演的是什么角色,内网:就是指内部网络,窄义上的内网就是指中小型的局域网外网:就是指在你办公网络之外能访问到的网络...
- 360卸载不了的软件怎么办(用360卸载软件卸载不了)
-
开启了自我保护,关闭即可。解决方法如下:准备材料:360安全卫士、电脑1、在电脑上打开安全卫士,进去之后,点击右上方的列表图标,选择设置,2、进去安全卫士设置界面之后,点击安全防护中心,3、进去安全防...
-
- 联想电脑u盘启动不了(联想电脑为什么u盘启动不了)
-
1,启动计算机,并按住DEL键不放,但是也有按其它键的,所以请根据提示,直到出现BIOS设置窗口。2,键盘方向键向右移动到BIOS"Startup"菜单,然后选择“CMS”按回车键,然后选择"CMS"里面的Enabled。3,在对上面的操作...
-
2026-01-03 02:03 off999
欢迎 你 发表评论:
- 一周热门
-
-
抖音上好看的小姐姐,Python给你都下载了
-
全网最简单易懂!495页Python漫画教程,高清PDF版免费下载
-
Python 3.14 的 UUIDv6/v7/v8 上新,别再用 uuid4 () 啦!
-
飞牛NAS部署TVGate Docker项目,实现内网一键转发、代理、jx
-
python入门到脱坑 输入与输出—str()函数
-
宝塔面板如何添加免费waf防火墙?(宝塔面板开启https)
-
Python三目运算基础与进阶_python三目运算符判断三个变量
-
(新版)Python 分布式爬虫与 JS 逆向进阶实战吾爱分享
-
失业程序员复习python笔记——条件与循环
-
系统u盘安装(win11系统u盘安装)
-
- 最近发表
- 标签列表
-
- python计时 (73)
- python安装路径 (56)
- python类型转换 (93)
- python进度条 (67)
- python吧 (67)
- python的for循环 (65)
- python格式化字符串 (61)
- python静态方法 (57)
- python列表切片 (59)
- python面向对象编程 (60)
- python 代码加密 (65)
- python串口编程 (77)
- python封装 (57)
- python写入txt (66)
- python读取文件夹下所有文件 (59)
- python操作mysql数据库 (66)
- python获取列表的长度 (64)
- python接口 (63)
- python调用函数 (57)
- python多态 (60)
- python匿名函数 (59)
- python打印九九乘法表 (65)
- python赋值 (62)
- python异常 (69)
- python元祖 (57)
