本 Python 脚本用于对群聊聊天记录进行分析,并生成相应的数据可视化和词云图。以下是脚本的主要功能和用法。
-
数据读取和清洗: 读取群聊聊天记录文本文件,进行数据清洗和处理。
-
数据预处理: 将时间戳转换为标准日期时间格式,并添加相关时间特征列,如年份、月份、日期、星期和小时。
-
元数据分析: 统计群聊的人数、起止日期、总天数、总发言数和总发言字数。
-
每个人的发言统计: 统计每个人的发言次数和发言字数,并生成对应的柱状图。
-
发言时间分布统计: 统计每个人在一天中的发言时间分布,并生成对应的柱状图。
-
发言日期分布统计: 统计每个人在不同日期的发言次数,并生成对应的柱状图。
-
发言星期分布统计: 统计每个人在一周中的发言次数,并生成对应的柱状图。
-
发言月份分布统计: 统计每个人在不同月份的发言次数,并生成对应的柱状图。
-
群聊发言词云: 生成整个群聊的发言词云图。
-
每个人的发言词云: 生成每个人的发言词云图。
-
使用该工具解密聊天记录并导出为html格式LC044/WeChatMsg: 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 (github.com)
-
准备数据: 手动处理html格式的文件(后面会优化),并群聊聊天记录保存为文本文件(例如
test.txt
)。 -
设置停用词: 可根据需要修改停用词列表,位于代码中的
stopwords
变量。 -
运行脚本: 在终端或命令行中运行脚本。确保已安装所需的 Python 库,如
jieba
、pandas
、matplotlib
、wordcloud
等。python script_name.py
-
查看结果: 执行完成后,将生成一个 Word 文档(
群聊聊天记录分析.docx
),其中包含了各种分析结果、图表和词云图。
脚本中的各个功能模块均可根据实际需求进行调整和扩展。在使用时,请确保系统中已安装相应的 Python 库。
- 直接接入上游仓库,合入其中,使用数据库直接操作