前言
相信大部分人的微信里面总会有那么几个微信群,有的是被迫被拉进去的,也有自己主动加的一些群。这些微信群中不乏有一些特别活跃的群,每天能产生大量的聊天数据,少则几百条,多则上千上万条。对于一些感兴趣的群,我们常常希望能够从中学到东西,或是参与到话题当中。在聊天内容比较少的时候还好,我们能够清楚的阅读聊天记录,知道所聊的话题,可一旦聊天内容倍增的时候,尤其是成千上万条消息的时候,我们经常就会放弃阅读了,因为太多了,人根本没那个耐心阅读几千甚至几万条消息内容的。那有没有一个简单的办法可以对聊天数据进行分析呢?
作为一个数据分析爱好者,这点肯定是难不倒我的。本文针对微信群聊内容展开分析,深度挖掘聊天记录数据背后的故事,**想知道群里的意见领袖是谁吗?想知道群什么时候更活跃吗?想知道这一天天的上万条记录聊最多的关键词是什么吗?**本文将针对这一系列的问题给出解答。
如何获取数据
获取数据采取两种办法,会使用到以下的工具:
- iTunes(IOS):数据备份;
- iPhone backup Extractor:读取备份,导出sqlite数据库;
- DB Browser for SQLite:读取聊天记录数据库;
- 微信管理大师:直接读取备份导出聊天记录;
准备好工具之后依次进行以下步骤:
- 将iPhone连接至Mac,然后打开iTunes,备份iPhone,请勿勾选加密,因为加密之后无法打开备份文件;
- 打开iPhone backup Extractor,读取刚刚的备份,然后点击Expert Mode,找到路径:Applications/com.tencent.xin/Doucuments/{md5(你的微信号)}/DB/MM.sqlite,这个就是微信的本地聊天数据库,然后将这个数据库导出;
- 使用DB Browser for SQLite打开数据库文件,然后找到聊天记录,可直接导出txt或者csv即可,见下图,到这里为止,获取数据就完成了。
如果以上的步骤觉得很烦人且没有一定技术能力的话,推荐使用微信管理大师,它可直接读取iTunes的备份数据,并轻松导出微信群聊天记录。
开始数据分析
在拿到了数据之后我们就可以开始分析了,本文我将以一个民谣歌手——花粥的线下演出群聊内容来进行分析,这种群有意思的地方在于,演出时间是7月9日,在演出前一天我主动加进了这个群,主要也是希望了解到更多关于livehouse的资讯,已经现场是否有什么福利。下文会详细叙述分析的数据维度,主要通过tableau与python来进行数据分析。
群聊每日活跃度趋势
从演出前一天到截止今天,有差不多半个月的时间,通过分析,我发现总的聊天数量会逐步下降,在演出日期前后会出现高潮,然后逐渐降低。另外,周末也是一个低谷,一般周一到周三群聊更为活跃。
成员内容条数排名
将每个成员所聊天的内容进行汇总,然后进行排名。通过排名可以得到一个数据:谁是这个群里最活跃的人?通过分析,我们发现,单身的小姐姐在微信群特别活跃,具体原因可能多种多样,但经过我缜密的分析,答案只有一个:当一个漂亮小姐姐在群里发言时(漂不漂亮谁知道),更容易得到异性的附和(舔狗),从而小姐姐更加有了一种归属感,这也是为什么我分析了多个聊天群之后,发现非常活跃的微信群一定有一个特质,那就是群里面有小姐姐。而单身则更具备吸引力,人类本身也是动物,潜意识会有求偶的趋势,所以当异性在群里发言时,更容易得到回复。
我们平常有听到一种效应叫马太效应,其实在微信群也是这样的,这个群总共132人左右(中途有人退群有人进群),产生的总聊天数量为23961条,而通过数据分析我们可以得出,前10名的聊天内容总共占比为66.7%,也就是说,一个活跃的群,其实有10个人,就能够撑起一片天了。
活跃时段分析
为什么要分析时段,通过时段分析可以得出活跃的一类成员的工作状态,正常来讲,如果说工作时间压力很大的话,是没有机会在群里活跃的。通过分析得知:活跃度非常高的这一类成员可能不需要固定工作,这也就意味着他们可能还在学校,正处在放暑假的时候。
但是当我看到数据的时候我还是很诧异,为什么聊天的高峰期出现在上午的11点与下午的15点?难道是学校这个时候不管了?还是别的原因?
群聊类型分析
分析下现在的年轻人主要都发啥(表情包,文字,语音,视频,图片),通过分析可知,大部分内容还是以文本为主,除了文本最多的就是微信表情了。
成员性别分析
通过python itchat库获取指定群聊成员性别,通过分析,发现群内男女比例相对平衡,也侧面说明,喜欢民谣的文艺女青年还是有一定的比例。群内的性别分布见下图:
成员签名词云分析
个人签名一般代表着一个人对美好事物的向往,或者是自身特性的一些表现,我抓取了所有群成员的个人签名,并生成了词云,见下图:
从图中可以看出,喜欢民谣的人大多数都希望做一个努力的人,性格善良,有趣,快乐。
关键词分析
最后分析下群聊关键词,这部分在分析的时候做了关键词处理,首先将微信表情去掉了,因为所有微信表情在聊天系统中存的就是[微信表情]四个字,保留会影响词云的准确性。
通过上图的分析,我们能够看到,现在的年轻人很喜欢用”哈哈哈哈哈哈“,估计过几年哈哈也会不如”呵呵“的后尘,哈哈。
总结
本文通过获取数据,处理数据,分析数据三步流程对微信群聊做了分析,其实一开始的本意也就是分析这玩玩,后来越分析越觉得这件事儿比较好玩,有意思,于是就有了本文。
文章中有些代码也是直接参考了其它作者的代码,所以也就没贴出来了。我觉得数据分析有意思的地方就是能够通过数据看到数据背后鲜活的人,再跟数据一对比,会显得他们很可爱。
微信群聊分析的纬度还很多,本文也只选取了其中几个纬度来进行分析,实际上能够挖掘的信息很多,比如如果通过聊天记录分析出股票微信群里谁是托?可能还有很多纬度暂时我也没能够想起来,后续想起来再写。
参考资料
评论区