即使是像知乎这样的高质量用户云集的社群,依然遍地都是『小透明』,他们只关注极少的人,他们只看很少的问题,他们并不提问、他们也并不回答、他们甚至不发出任何声音;即使发出了,也只有少数人才能听到。
经历了最新的D轮融资,知乎已经成为了估值10亿美金的独角兽。这个以高质量用户称著的互联网中文社区究竟有什么样的独特基因呢?
我们最近花了一点时间,对知乎的核心用户进行了抽样的数据分析和研究。
实验设计首先,我们不想建立庞大的爬虫系统和数据库对知乎全网用户进行分析,这样必然涉及到大量的清洗和剔除僵尸用户的工作,时间成本会很高。
那有什么简单有效的抽样方法吗?
当然有:收藏夹关注者。
我们知道,收藏夹是知乎通过用户进行知识分发的重要途径;很多重要收藏夹的创建者并不是大V,这使得知识可以通过非重要节点进行更有效的传递;与此同时,收藏夹的关注是用户的完全主动行为。这两点天然地保证了我们的研究样本基本上可视为非僵尸的具有主动意愿的核心用户。
我们从关注人数超过1万的知乎收藏夹中选取了不同类型的六个收藏夹,其总关注者约为20万人:我们整理了他们公开在其主页上的个人信息(关注、被关注、提问、回答、学校、地域等)。根据这些数据,我们可以对这些内容分类导向的知乎用户进行了一些小分析。
对了,这六个收藏夹及其对应的内容类型是这样的:
我们来看看这些知乎核心用户都有什么特征吧。
分析结果 一、北上广是知乎核心用户的大本营有21.8%的知友填写了“居住地”一栏。在去掉了诸如“艾泽拉斯”、“出门右拐”等神奇的地点、并在省级行政单元上汇总后,我们得到了知友在全国的地域分布情况;由于每个省市的人口基数相差极大,因此我们再将核心用户抽样数量除以2015年末的常住人口数量,就可以得到知乎在全国各省的用户密度。结果如下图所示:
可以看到,无论从知友数量还是知友密度来看,北京、广东、上海都包揽了前三。大多数地区的知友数量和知友密度排名都有3位以上的波动,尤以天津、河南、山东等地区的差异最大(注:澳门、青海等地的排名巨大变动可能是受到样本量较小的影响)。
二、科技、信息、金融是知乎核心用户的三大最主要行业有23.3%的知友填写了“行业”这一栏。我们将知乎的14个行业大类与全国第三次经济普查的行业分类进行了匹配(进行了一些合并和删除处理),用于计算各个行业的知友密度。结果如下图所示:
可以看到,从密度上看, “高新科技+信息传媒”以绝对优势居知友数量的第一位,“金融”紧随其后。
知乎在科技、传媒、金融行业中的渗透程度远超其他行业。
有趣的是,知友数量居第三位的“制造加工”,密度只排在第九位;知友数量居第九位的 “艺术娱乐”,密度却排到了第三位。服务业VS医疗服务、公共服务VS教育之间,也存在类似的排位对调现象。
三、虽然在科技行业渗透极强,但你以为知乎还是程序员的天下吗?了解了各个行业的知乎渗透度之后,我们可以再将各行业的知乎核心用户的关注和被关注情况进行统计,(去掉了各行业top5%的大V后取平均值),请看下图:
从粉丝数量(关注者数量)角度上看,艺术娱乐类的知乎用户排名第一,远远高于排名第二的高新技术行业。
而且值得关注的是,知乎用户是服从关注人数和关注者数的正相关关系的,高新科技行业在这个关系中排名第一,但艺术娱乐类完全无视这个规则,关注人数排名只是中游,但粉丝数则远超其他行业。
四、学历上不填个985,在知乎上还真不好意思跟人打招呼有12.5%的知友填写了“毕业院校”一栏。由于知友们的高校分布极其广泛(上至哈佛牛津,中至布鲁弗莱,下至家里蹲),且有部分名称不够规范(如五道口男子体校、五角场文理学院等),我们只选取了高校名称填写规范、知友数量较多的若干高校进行统计。同样地,由于不同学校的规模也相差极大,因此我们以各高校在全国的招生人数作为校友数量的替代指标,计算出知乎核心用户在不同高校的密度。结果如下图所示:
可以看到,知友数量TOP20的高校中,全部都是“985”高校,其中浙大居首,华中科技大学和武汉大学分列二三位。从知友密度来看,北大清华、复旦交大、浙大同济、人大南大等高校依次排列。
果然,在知乎上混,不是个985什么的,还真不好意思跟人打招呼。
但这一装逼效应导致的直接结果是:很可能那些非985的同学,根本就不填自己的毕业院校了吧(样本中的填写率只有12.5%)。
五、在受关注程度上,人大校友登顶,北大彻底碾压清华。以每个高校知友的平均关注人数作为x轴,平均粉丝数作为y轴,可以绘制出下图(去掉了各校top5%的极端值后取平均值):
据此,可将各高校分为四组:
为了较为全面的描绘各大高校知友的兴趣分布情况,我们用毕业院校和关注的收藏夹内容类型做一个交叉,可以得到分类及兴趣分布如下图所示:
按收藏夹关注者所属高校可排序如下:
按高校进行兴趣点的汇总,请看下图:
你们这些985的知乎用户们,请自行认领吧。
七、这仍然是一个遍地都是『小透明』的知乎。以上的所有结论都基于这组收藏夹用户样本的计算,那么最后我们来看看,他们的活跃程度如何呢?
我们统计了关注人数、粉丝数、关注问题数、提问数、回答数等五个指标,结果如下图:
上图中,p10/p25/p50/p75/p90分别表示各项指标的分位数。分位数的含义可以这样理解:
不管我们怎么在这个社区里活跃、提问、回答、争吵、抱团、撕逼。我们始终都应该清醒地认识到:
即使是像知乎这样的高质量用户云集的社群,依然遍地都是『小透明』,他们只关注极少的人,他们只看很少的问题,他们并不提问、他们也并不回答、他们甚至不发出任何声音;即使发出了,也只有少数人才能听到。
这一切都跟我们所身处的真实世界一模一样。
上一篇: 上一篇:知识经济这一年,内容开始赚钱了,但它是一门持续的生意吗?
下一篇: 下一篇:抖音涨粉技巧都是有哪些?什么是垂直领域的矩阵账号