审查制度对偶然性信息接触的影响:来自维基百科的证据

2020-07-31 原文 #火光 的其它文章

审查制度对偶然性信息接触的影响:来自维基百科的证据 ——

原文: Pan, Jennifer and Margaret E. Roberts. “Censorship’s Effect on Incidental Exposure to Information: Evidence from Wikipedia.” SAGE Open January-March 2020: 1-14. (PDF)

来源Jennifer Pan的个人网站 (请注意该网站为http协议,信息均为明文传输。)

译者: CD

摘要

目前已经有很多研究关注特定政治信息审查的影响,以及对娱乐行业审查的意外后果。但是,我们对无差别互联网审查(coarse censorship,即不局限于特定内容的审查)会造成什么后果,还知之甚少。本研究使用了中文维基百科被GFW封锁当天(2015年5月19日)的数据,用量化方法分析了无差别审查对主动信息消费(即用户本身刻意寻找的信息)和偶然信息消费(即用户只是偶尔发现了该信息并进行消费)的影响。我们发现,来自中国大陆的用户更有可能偶然而非主动地在维基百科上消费有关政治和历史的信息,这表明审查制度对偶然信息接触的影响可能具有重要的政治意义。


中国政府对中文维基的审查史

  • 中文维基百科于2001年上线。
  • 2004年至2008年,维基大多数时候可以访问,但中国政府会于某些时期用GFW阻挡中国大陆IP对维基百科的访问,持续数天或数月不等。
  • 2008年,涉及政治敏感的维基页面——例如1989年天安门事件、争议性历史事件以及政治异议者介绍——都被选择性地屏蔽,而大多数中文维基页面依然可以访问,其中包括大量的政史类信息。
  • 2011年,维基百科开始支持HTTPS协议。由于在HTTPS协议下网络供应商看不到用户具体访问的网站页面,中国政府无法对HTTPS版维基百科进行页面的选择性屏蔽。
  • 2013年,中国政府开始阻止HTTPS版中文维基的访问,但HTTP协议的“审查版”维基依然能够访问。
  • 2015年,维基百科强制将所有HTTP请求转入相应的HTTPS地址,以保证全站的访问加密性。于是,2015年5月19日,中国政府全面封锁了中文维基访问。


上图显示了5月16至5月21日中文维基百科每小时的访问量。在北京时间5月19日下午3至4时,页面访问量显著下降(2至3时为664694,4时至5时为421663,降低35%)。之后的访问量,主要为不受GFW影响的地区贡献,例如香港、台湾。此外,有一部分访问是通过VPN“翻墙”进行的,不过考虑到中国大陆VPN用户数量有限,且屏蔽维基后VPN的下载和安装量并没有上升(与屏蔽Instagram后相反),来自中国大陆的访问量应该相对稀少。假设减少的访问量都来自中国大陆,维基的封锁导致了中文维基的页面浏览量每天减少了三百万次。

访问量骤降的维基页面

Pan和Roberts分析了维基封锁前一周、至少有两天的(北京时间)下午2至3时被访问过的页面,共372208个。通过比较5月19日2至3时(封锁前)每个页面的访问量及同一天4至5时(封锁后)的访问量,得到访问量下降最多的前100个页面(见下表)。仅这100个页面,就贡献了所有下降的访问量的10% (约3万次浏览量)。

主页直接链接: 页面是否在5月19日中文维基的主页链接上;0=否,1=是。
主页间接链接: 页面是否能从5月19日中文维基的主页链接中链接达到(最多两次,即主页页面->目标页面,或主页页面->页面1->目标页面);0=否,1=是。

粗略看来,受影响的很多页面都与时事或热点无关。同时,很多页面的共同点为,它们都可以通过维基百科当天的主页链接达到。维基百科每天都在主页上有一些推荐页面,包括“优良条目和“特色条目”存档、“历史上的今天”、随机的“新条目推荐”、以及新闻中出现的人物和地点等。总的来看,前100个最受维基封锁影响浏览量的页面中,有65个页面可由主页链接达到——11个为主页直链,26个为二次链接,28个为三次链接。

页面类别 平均下降率 页面数量
主页链接 -45.07 45
二次链接 -2.06 7388
三次链接 -0.58 115353
其他链接 -0.29 249422

上表分类别统计了所有研究范围内的维基页面(共372208个)在封锁后访问量减少的情况。研究者发现,最受封锁影响的是主页直链的页面,其次是二次链接,再次为三次链接。与主页链接无关的页面其浏览量受封锁影响是最小的。总体来说,与主页链接相关的页面贡献了51%的浏览减少数量。

这说明,维基主页提供的“偶然性信息”是中国大陆用户的重要信息来源。

主动信息消费和偶然信息消费

当然,与主页链接有关的页面浏览量并不等于浏览量都来自于主页链接。为了更好地区分维基主页带来的浏览量(即“偶然信息消费”)与页面话题本身吸引的浏览量(即“主动信息消费”),研究者采用了时间序列分析进行了估计。

估算方法举例

  • “1美元硬币”这个页面,于5月19日被维基主页推荐。
  • 5月18日,每小时大约有10次浏览;5月19日,仅下午2至3时(封锁前)就有约150次浏览;这两者的差值(140次)大致反映了主页链接对于页面浏览总量的影响。
  • 5月19日4至5时(封锁后),浏览量约为25次;5月20日(页面不再出现在主页上),每小时平均有5次浏览;这两者的差值(20次)大致反映了主页链接对于非大陆用户页面浏览量的影响。
  • 因此,主页链接对于大陆用户页面浏览量的影响约为:140 – 20 = 120。此即为“1美元硬币”页面的“偶然信息消费”量。
  • 来自大陆的总浏览量约为:150 – 25 = 125。
  • 非主页链接创造的中国大陆浏览量约为:125 – 120 = 5。此即为“1美元硬币”页面的“主动信息消费”量。

通过这种估算方法,在维基百科被GFW封锁后,约有42%的页面浏览量下降为“偶然信息消费”。

研究者进一步考察了偶然信息消费页面和主动信息消费页面的主题差异。通过文本分析,研究者提取了维基被封锁前后一个小时内,每个被浏览的页面的介绍部分(第一段)所涉及的主题。总共有158611个页面的介绍文本被分析,提取的主题为78个。这78个话题中,有16个与娱乐相关(如电视节目、名人、音乐、体育、游戏等),其余则为与娱乐无关的具体主题,如欧洲历史、电脑系统、明清历史、股票市场等。中国大陆用户浏览最多的主题包括了很多政史话题,如中国共产党、民主、地区统计数字、中国政府和法律系统等。

研究者计算了每个主题下来自中国大陆的偶然信息消费比例和主动信息消费比例,并且计算了其差值。差值最大的主题即为偶然信息消费的主要领域。


左图显示了主动信息消费的流行主题。包括:日本名人,电影,电视连续剧,软件,日本,军事,电视节目,中国电视节目,动画电影,武器,音乐/电影/电视奖项,音乐,K-pop,中国小说,数学,足球,维基条目,美国/英国/澳大利亚/加拿大,演员,电子游戏,疾病,电脑系统,一般词语,太空/航空,信息科技,动画漫画,动物,航空,方言,美国和英国,类别,高速公路和铁路,中国的政府和法律系统,各国统计数字,经济发展,国际体育,物理。

右图显示了偶然信息消费的流行主题。包括:唐朝历史,台湾,国际文化遗产,劳工和经济,日本历史,台湾政治,香港澳门的地点,材料,离地,明清历史,宗教,地区统计数字,教育和大学,民主,消费产品,文化和社会,教育、教授和学生,欧洲历史,世界军事史,商业和股票市场,悲惨的事件和犯罪,植物,英文小说,古代历史,中国景点,生物学,公共交通,苏联历史,东亚,交通运输,法国地理,逻辑,中国共产党,军事史,社会组织,香港演员,银行,化学,研究,书面文字,一般词语。

总体来说,中国大陆用户的主动信息消费集中于娱乐话题,而偶然信息消费主要涉及政治、历史领域。同时,中国大陆用户对政史话题的浏览主要来源于偶然信息消费。 这说明,中国大陆用户在维基上偶然遇到政史信息的时候,对这些话题有较高的兴趣。

结论

  • 无差别审查对公众信息获取和批判思维的一大影响,在于其截断或限制了公众偶然接触信息的渠道。
  • 政治历史类和有关世界各国的偶然信息消费尤其受到无差别审查的影响。
  • 墙内用户很难弥补由无差别审查带来的偶然信息损失。

“people don’t know what they don’t know.”
人们不知道他们不知道的东西。


文章版权归原作者所有。
二维码分享本站