哔哩哔哩“宝藏老师”UP主网络关系研究

date
Apr 30, 2023
slug
social-network-analysis-cn
status
Published
tags
Research
summary
type
Post

一、研究背景及研究问题

哔哩哔哩(https://www.BiliBili.com,英文名称 BiliBili,简称B站)是中国年轻世代高度聚集 的文化社区和视频网站,该网站于2009年6月26日创建,经过十年多的发展,当前已涵盖 7000多个兴趣圈层,围绕用户、创作者和内容,构建了一个可持续优质内容生产系统与多元文化生态。
有着“学习网站”之称的B站已吸引超5000名老师以个人名义入驻,泛知识类视频播放占比达到 45%。抖音2021年的相关报显示,目前平台覆盖高校已达1000+所,其中清华大学、北京大学、国防科技大学的账号粉丝最高 ;在 B 站上,名师学者群体的总粉丝量级超过 5500 万,超过 10 万粉丝的近 70 位,有许多老师广受B站受众欢迎,如罗翔教授、戴锦华教授等。中国政法大学刑事司法学院教授罗翔的粉丝量已超过2549万,为B站涨粉速度最快、也是目前全站粉丝量最高的UP主。在B站官方于2022年9月9日发布的“宝藏老师”清单 (https://www.BiliBili.com/BlackBoard/theteachersatBiliBili-pc.html)中,共有207位老师。其中,中科院院士7位、社科法律心理老师50位、文学历史哲学老师50位、理学工学农学老师50位,以及校园职场兴趣老师50位。这些老师凭借硬实力与高人气频频现象级“出圈”,也让许多人开始注意到教师群体在哔哩哔哩的强大影响力。
如果说学校教育、教育培训班是专人搭建的知识陈列馆,互联网新媒体就像是一个个知识铺子组成的热闹集市。在B站,由于每个内容生产者都有独立的账号和主页,“老师”的身份也变得和知识本身一样引人注目;同时,社交属性也让知识与主动反馈互动在公共空间产生共鸣。高校的物理围墙被推倒后,人们看到的不仅是知识,更是讲述知识的教师。
本研究从“宝藏老师”清单的207位B站老师之间通过互相关注形成的社会网络关系入手,希望刻画和分析这一网络的结构特征。这有将助于我们了解在当今的平台经济之下,学科知识的传授者是如何介入互联网社交和大众传播的。
同时,我们也希望看到人们对现实世界的假设、现实社会关系,以及互联网上的社会关系之间的关联和区别。例如在现实生活中,我们通常认为培训机构的老师和高校体制内的老师是两个没有交集的群体,但是这一观点能够被互联网上的正式数据验证吗?——我们将在本研究中尝试探究这样的问题。
我们预期研究的问题如下:
  1. 207位老师的关系网络关系结构?207位老师的关系网络有什么样的网络密度、中心度等基本特征?
  1. 个体属性相近的UP主是否更有可能互关,并形成网络的内部区块分化?网络中老师节点的入度、出度与其粉丝数量、LV等级之间是否具有显著的相关性?
  1. 207位老师之间是否存在模仿、借鉴、合作的情况?
我们猜想,UP主关注网络中的区隔与核心-边缘关系,可能会反映一般社会排斥和社会等级化的规律(如学术圈中的性别不平等、由社会分工形成的学院内外的区隔,等等)。换言之,网络平台并不是一个脱离一般社会的“乌托邦”,而是反映现实社会的另一面镜子。

二、研究设计

2.1 研究方法

社会网络分析(Social Network Analysis,SNA)为研究复杂的社会关系提供研究工具, 在方法论和具体方法上拓展了社会网络结构的研究。本论文采用社会网络分析的基本思路,利用Python和R语言对B站“宝藏老师”UP主的关注关系网络数据进行爬取和分析,从整体网络结构和个体位置结构层面,识别关键参与者,试图说明B站“宝藏老师”群体网络的特点。

2.2 数据收集

本研究的数据来自B站网络数据,采用Python“爬虫”(sqlite3、json、requests、pandas包)来获取207位老师的用户信息(代码见附录I)及基于关注关系形成的网络信息(代码见附录II)。爬取到的节点信息存储在文件“207userData.csv”中,网络连接信息存储在文件“207relation.csv”中。最终,我们收集到的网络连接信息为207位老师之间的相互关注数据(有向);收集到的节点数据为207位老师的B站用户ID、UID、性别、LV等级、粉丝数、关注数、学科领域、教师身份,一共8组数据。

2.3 数据处理

收集数据信息后,我们在R studio中使用R语言对数据进行社会网络分析和相关统计检验。
数据导入部分,我们用R的network包裹,创建有向非完备网络关系数据集net207,其中207userData.csv中的用户数据作为节点数据;另外用同样的方式创建igraph网络数据g,便于用不同的包裹展开分析。
数据分析主要分为两部分:描述性分析、相关性分析。描述性分析部分,我们会测算207位老师形成的关注网络的网络密度,同时进行度中心度、中介中心度、和紧密中心度分布的分析。相关性分析的部分,我们会利用节点数据用颜色对不同节点进行标注,观察具有相近个体特征的UP主是否更有可能互相关注,形成网络的内部区块分化。同时,我们会对节点的出度及入度和粉丝数量、LV等级之间的相关性。
在数据可视化方面,我们主要用了直方图、散点图、和网络图进行数据展示。

三、分析及结果

3.1 网络呈现

为直观地显示网络平台中不同UP主受关注度的差异,我们在网络可视化中基于节点的粉丝数量,给节点半径赋值。最初,我们对粉丝数量作“除以100万”处理,赋值到节点大小的等级中,结果如下。
notion image
很显然,部分老师的受关注度实过高,远远盖掉网络中其他个体(图中有如太阳一般的巨大“星球”代表的是B站“顶流”罗翔老师)。因此,我们最后采取了将数据开立方根再除以100的做法(代码vertex.cex = ((network:: get.vertex.attriBute(net207, "follower")) ^ (1/3))/100),得到以207位老师为节点的关注网络关系图如下,网络节点相对更清晰的同时,节点之间的面积差异能够有效体现出节点的粉丝数量差异。
notion image
207位老师网络
可以看到,该网络图中68位老师和其他老师之间主间不存在任何的关注与被关注关系 ,考虑到网络可视化效果,我们另外建立排除这68位老师,余下139位老师的network数据集net139,并绘制重新关系图如下。
notion image
139位老师网络
对于该网络,可用不同颜色给表示同一属性下不同种类的个体。
notion image
根据LV等级着色网络中的节点(紫色-LV6;蓝绿色-LV5)
上图是按照LV等级分类着色的网络图。B站的等级根据经验值划分:Lv1:通过答题测试;Lv2:获得200经验值;Lv3:获得1500经验值;Lv4:获得4500经验值;Lv5:获得10800经验值;Lv6:获得2880经验值。获取经验的方式包括:用户信息完善、每日登陆、观看视频、分享视频、视频投币、投稿获币。升级除了每日看视频并投币转发外,性价比最高的方式就只有投稿,UP只有通过多投高质量稿件获得投币,从而尽快迈向LV6。
可以看到在该网络中,LV等级为最高级6级的UP主占压倒性的大多数,LV5的UP主其次。LV4及以下的UP主为极少数。
notion image
根据性别着色网络中的节点(黑色-男性;红色-女性)
上图是按照性别分类着色的网络图。可以看出网络中绝大多数节点是男性,但是似乎并不存在明显的区块化,这一结论我们会在后续用R进行检验。
notion image
根据是否为高校在职老师着色网络中的节点(灰色-高校;黄色-非高校)
上图是按照是否为高校老师别分类着色的网络图。网络中绝大多数节点是高校老师,并且高校老师和非高校老师之间存在明显的区块化现象,这一结论我们同样会在后文用R进行检验。

3.2 描述分析

3.2.1 网络密度分析

网络密度指的是网络节点之间的连接紧密程度,反应了节点之间的联系程度和互动程度。通过R的Base运算可知,207位老师的网络密度为0.005229586,说明各老师之间的联系紧密度非常低,连接网络极其松散。网络中还存在68位孤立节点(即没有关注其他老师,也没有被其他老师关注)上的老师,因此可以说各节点之间的连接关系不仅不密切 ,连接路径也并不通畅。即使去掉68位孤立节点,剩下的139位老师形成的网络密度为0.01162548,仍然非常松散。

3.2.2 中心度分析

中心度作为社会网络中心性分析的重要指标,可以表明节点在网络中的核心程度和中心地位,节点越处于网络的中心,它的中心度值就越大,在网络中重要性就越高,发挥的影响力也越大。常用的中心度指标有度中心度、中介中心度和紧密中心度。
notion image
可以看到,139位老师网络中的个体度中心性存在较大差异。中心度小于4的老师其实占到相当高的比例。大多数老师关注其他老师数量不超过6个,有一位老师UP关注了25位“同行”,还有一位被19位“同行”关注。前者是“玩艺术的吴雅琳”,后者是“罗翔说刑法”。
notion image
1 2 3 4
上图1、2是207个节点中的度中心性测量的分布图,出度和入度分别计算。度中心性(Degree Centrality)是在网络分析中刻画节点中心性的最直接度量指标。一个节点的节点度越大就意味着这个节点的度中心性越高,该节点在网络中就越重要。由图像可知该社会网络中,大部分的节点入度和出度都在5以内,入度超过5的节点为个位数;入度中心性、出度中心性的数学期望在众数右边,为右偏分布,意味着中心度小于均值的节点占多数,中心度大于均值的节点占少数。可见相比被关注程度来说 ,网络中主动关注其他节点的程度更显著。
图3是按照标准化执行的中介中心性测量的分布图。中介中心性(Betweenness Centrality) 以经过某个节点的最短路径数目来刻画节点重要性的指标,一个节点经过的最短路径次数越多,它的中介中心度就越高,对其他节点形成连接关系的控制权力也就更大。从图中可以看出,139位老师形成的关注网络中,绝大多数节点中介中心性小于0.001,位于其他两个个体之间最短路径上的概率较大的个体的数量极少,网络中的绝大部分节点处于非关键位置,说明B站“宝藏老师”UP主网络结构相对而言较为松散,UP主间更多是自发的直接关注关系,较少依赖中间人进行间接连接,说明网络中不存在中介控制度很强的节点。
图4是按标准化执行的紧密中心性测量的分布图。紧密中心性(Closeness Centrality)反映在网络中某一节点与其他节点之间的接近程度。将一个节点到所有其他节点的最短路径距离的累加起来的倒数表示接近性中心性。即对于一个节点,它距离其他节点越近,那么它的接近性中心性越大。从图中可以看出该网络分布比较稀疏,绝大多数节点的紧密中心性不超过0.5,大部分集中于0-0.4区间。

3.3 相关性分析

3.3.1 内部区块分化

接下来,我们考察了网络中是否有因为性别/身份而形成的区块差异,并通过计算混合度(呈现略)和z分数检验(用表格表示)来证明这一点。
  1. 性别
不难发现,只有“男→女”一项显著(z的绝对值大于1.96),说明在这个UP主网络中,男性一般不太关注女性,且这不是对边随机分配的结果;但我们不能得到网络中女性更不关注男性的结论,这可能和这个网络中女性数量本来就显著少于男性有关(男性的比例占到168/207=81.16%)。这也反映了在该网络中,女性UP主相比男性UP主地位更“边缘”,而不是简单地形成性别区隔。
  1. 身份
我们将教师UP主的身份建构为高校教师和非高校教师两种,计算得到z分数如上,可以发现这两个群体在网络中有显著的区块凝聚。换言之,高校教师和高校教师之间更容易形成连接,非高校教师和非高校教师之间更容易形成连接,而两个群体的成员之间,形成关注连接的概率较低。当然,我们这里将教师的“身份”处理为二分变量是一种简化,非高校教师中还包括商业教育辅导机构的教师、中小学教师、高等研究机构的研究人员等,这个群体内部仍然有异质性,207名UP主中非高校教师的数量较少(66名),这是我们不再做更细分类的原因。

3.3.2 线性回归分析

notion image
上图是网络中个体LV等级、粉丝数量和对应入度、出度绘制的散点图,红线是对散点图的线性拟合。我们可以看出入度和LV等级、粉丝数量具有显著正相关性,出度和LV等级、粉丝数量不具有显著相关性。
我们使用R语言中的cor.test()函数进行相关性检验:cor.test(level,indeg) 得到 p-value =p-value = 0.001,cor =0.2259,说明入度和LV等级之间存在显著的正相关性 ;cor.test(level,outdeg)得到p-value = 0.632,cor=-0.0335,说明LV等级和出度之间不存在显著相关性;cor.test(follower,indeg)得到p-value < 2.2e-16,cor =0.7441,说明粉丝数量和入度之间存在非常显著的相关性 ;cor.test(follower,outdeg) 得到p-value = 0.2669,cor=0.0775,意味着粉丝数量和入度之间不存在显著相关性。
以上数据说明UP主的粉丝数量越多、LV等级越高,在207位宝藏老师的网络中被其他老师关注的可能性就越大。

3.3.3 ERGM模型回归分析

为更量化地研究性别、教师身份对于网络中系欸但形成连接的影响,我们最后采用ERGM建模进行回归分析。模型考虑了网络连接的互惠性,并且验证加入互惠性(“mutual”)的考虑后,模型比原先有更好的预测性。
由ERGM模型回归分析的结果可知,在207位“宝藏教师”构成的网络中,如果两个教师UP主都是高校教师,他们之间存在关注关系的概率比两个UP主不都是高校教师高出e^(1.0029)-1,约为1.726倍。
同时可以看出,女性UP主更有可能关注其他UP主;UP主更有可能关注网络中和其同一学科领域的老师。

3.4 其他观察

3.4.1 UP主间的模仿

存在LV等级低、粉丝数量少的小UP主关注LV等级高、粉丝数量大的大UP主并对其昵称、投稿内容、画面设计进行模仿的“对标”现象存在。例如,生物学科的“不刷题的郭教授”对标物理学科“不刷题的吴姥姥”。值得注意的是,B站老师UP主圈的”对标“现象并未形成”恶意抄袭”或竞争的风气,相比其他UP圈子,老师圈整体氛围较友好。

3.4.2 UP间的互相关注

互相关注的UP主之间存在在B站展开合作的情况。例如,复旦大学人文学科的梁永安老师和骆玉明老师、人民大学大学新闻传播学科的董晨宇老师和刘海龙老师都曾经在B站上合作直播过。
具体而言:
  1. 139位存在联系的UP间互关数量较为有限,共25对。
  1. 互关者社会关系多样,如同一高校(北大*1、人大*1、复旦*1)、同一校外机构(高考机构*3、法考机构*3)、同一学科领域等。其中在“大文科”范围内形成互关的UP主多于理工科(哲学*1、人文社科*7、人文*1、生物*1、历史*1、考研*1、考古*1、人文社科*1)。此外,还有三名国外诺奖得主彼此互关,彼此主页风格间存在较高相似性(乔治穆斯特-天文;爱德华莫泽-神经科学;迈克尔莱维特-经验分享),可能由B站的海外运营部门统一设计。

3.4.3 合作作品及其引流效果

除与同领域老师合作外,也有不少老师与官方部门、出版社合作,或集体参与节日策划、综艺节目、纪录片摄制等。B站同样也在积极探索与老师UP主合作的方式,为用户呈现更多元、更新颖的视频玩法与内容。如今年中秋赶上教师节,上一回这样的巧合是38年前。B站抓住本次机会点,邀请刘嘉麒院士、罗翔、戴建业、李正、宋浩、郑莉、翎人祭酒、韩卓、乡村教师日记等9位“网红”教师共同参与内容制作,发布了一条《送月亮的人》视频短片,将月亮的美好寓意作为礼物送给广大用户,祝福大家”一寸月光万里路,莫卷人生卷诗书“。截至目前,该短片在B站已经收获超过500万播放量。其他一些合作案例还有:
①许建东-地理,常和地震学会、防震减灾宣教部门、新华社;
②王放_自然测量员-生物,央视新闻、人民网;
③复旦赵斌-生物,新华社;
④董晨宇RUC-新传,人大刘海龙-新传,人大出版社;
⑤孟凡人教授-考古,中社、专题纪录片、汉唐考古安家瑶、“考古天团”;
⑥刘嘉麒院士-物理、戴建业老师-文学、郑莉课堂-计算机,+B站官方,节日策划活动;
⑦梁永安教授-中文,B站综艺节目;
⑧正直讲史,赵冬梅讲历史;
⑨考研领域10人合作;
⑩许倬云讲历史,刘擎教授-哲学;
⑪向高甲-罗翔,是前者播放量最高的视频;
总体而言,合作作品播放量均位于UP本人作品播放量前列,但对不同粉丝数量/学科领域的UP“引流”效果存在不同。就粉丝数量多少而言,引流效果大致呈抛物线相关。

四、总结

4.1 研究结论

  1. 整体网络关系结构松散
本文围绕哔哩哔哩网站推出的“宝藏老师”名单中展开研究,运用社会网络分析法研究名单内教师网络社群关系。结果显示,宝藏老师之间的关系网络关系结构非常松散。UP主间更多是自发的直接关注关系,较少依赖中间人进行间接连接。207位老师的网络密度为0.005229586,其中有68个孤立节点。排除孤立节点后,139位老师形成的网络密度为0.01162548;绝大多数节点出入度都在5以内,中介中心性小于0.001,紧密中心性集中于0-0.4区间。
  1. 内部互关区块化显著
在207位宝藏老师形成的网络中,学科领域、所属机构属性相同(如是否为高校/盈利机构)的个体更有可能产生网络连接,形成网络的内部区块分化。如高校教师和非高校教师两个群体在网络中有显著的区块凝聚。同时,我们发现节点入度与UP主本身的粉丝数量与流量高度相关,宝藏老师的粉丝数量越多、LV等级越高,在207位宝藏老师的网络中被其他老师关注的可能性就越大,其中以罗翔老师被关注度最高。
  1. 形成互关的社会关系多样
我们基于对UP主发布的视频内容风格、取名等的观察,还发现宝藏老师之间存在互相关注、合作、内容模仿学习的情况,圈子整体呈现“积极友好”的氛围。其中,互关者社会关系多样,但是总体数量有限,占233个网络链接中的25对。可以看出,B站“宝藏老师”社群网络关系较为稳定,存在高效的互动协作关系以及一致的“高质量”内容规范。
随着B站推出“宝藏老师助力计划”以邀请更多老师入驻B站成为UP主,创作知识科普、生活日常等内容,相信未来B站“宝藏老师”UP主网络圈会更为成熟,形成稳定且密切的协同关系和相应的群体规范 ,结合B站平台媒介特性,形成包含广大网民与教师UP主的共通文化社区。

4.2 研究局限

在本研究中,我们对207位老师的网络数据进行了基本的描述性分析和相关性探索。然而受限于样本量及数据丰富度,本研究还存在很多遗憾和不足,具体包括:
  1. 样本不一定具有完全代表性。
分析样本直接使用了B站“官方认证”的宝藏UP老师名单。虽然受条件限制不太可能对全站UP老师进行完全统计,但在分析数据过程中我们发现,名单之外也存在不少“影响力”相当的UP主老师,B站划定名单范围的标准并不十分明晰。
  1. 取的节点数据不够丰富。
本研究通过网络爬虫只爬取到了用户ID、UID、粉丝数、关注列表、LV等级这6项数据,性别、学科领域和教师属性由手动搜集。由于B站的爬虫限制,没有搜集到的节点数据包括用户的年龄、入驻时间、作品数量、总播放量。受限于所搜集到的数据量,能够进行的研究深度与覆盖度。
  1. 孤立节点数量过大。
207位老师的关注网络中大约有1/3左右是孤立节点,且网络连接比较稀疏,这对数据相关性和凝聚子群分析造成了一定的困难。
  1. 变量过多,很多因果关系难以明确。
如合作起到的引流效果受到粉丝数量、学科领域、UP本人网络知名度等种种因素影响。很多问题无法通过网络分析进行量化,只能停留在推测层面。

参考资料

刘璐,2020-06-29,基于社会网络分析的趣缘群体文化传播研究——以 B 站国风文化趣缘群体为例,暨南大学硕士学位论文
霍丽丽,2021,社会网络分析视角下外卖骑手up主的网络连接关系研究,理论研究, DOI:10.16604/j.cnki.issn2096-0360.2021.24.003
哔哩哔哩弹幕网,2022-09-09,B站教师节、中秋节特别企划《送月亮的人》 | 一寸月光万里路,莫卷人生卷诗书,https://www.bilibili.com/video/BV1Bd4y1X7Ej/
澎湃新闻,2022-09-25,当高校老师成为网红“UP主”,https://www.thepaper.cn/newsDetail_forward_20033089

附录

I B站用户信息爬虫代码

II B站宝藏老师关系数据爬虫代码

III 网络关系分析与可视化代码(R)


© Kay 2023 - 2025