Twitter中文水军:在不存在的世界里打一场宣传战
作者: ZandY
这篇算是完成我立下的flag,介绍自己对Twitter中文水军的研究。在Twitter几次公开了中文水军的数据后,无数媒体(WSJ、NYT)、智库(Australian Strategic Policy Institute)和博主都有在分析相关数据,其中还涉及到了不少我们论文里的内容。因此,我才终于说服了我老师即使投double-blinded期刊,最好也要先挂到SocArxiv上去……于是,这篇文章终于在前几天公开了……
不过我一直没想好该怎么写,因为在中文世界里介绍一篇很多人都能看懂大部分内容的、关于中国政治的学术文章,一定会有N多误解、起哄与过度诠释。所以,希望大家不要用情绪回复,不要扣帽子与人身攻击。不一定针对我,也针对所有人。同行评议我倒是很欢迎的。
这不是一篇很难懂的文章,在方法上没有什么特别的地方。最大的价值应该是挖掘出并分析了这群水军,不过鉴于各种报道报告已经很多了,所以可能也没有那么新颖了。这里只是简单介绍一下,想详细了解的欢迎去看原文
这个研究的由头其实是2018年八九月份时,在Twitter上一些用户发布了不少钓鱼贴 (eg1, eg2),用非常滑稽荒唐的贴子骗到了一大群看似五毛的账号来回复。当时我就惊讶地发现,Twitter这个已经被大陆屏蔽的社交媒体,居然有一大批似乎是和大陆有关系的活跃五毛。于是,我在那学期的一堂seminar上,就决定开始着手研究这批水军。
Oxford Internet Institute其实在2018年时发布过一篇文章说,没有在Twitter上发现支持政府的五毛机器人的证据(但发现有海外民运的水军)。这篇文章后来被视为打脸Twitter封号的证据,但其实这个研究的问题颇大,可以算是不了解中国的西方人犯错的典型例子。比如,ta们以为微博五毛在清明节活跃,在春节就也活跃,所以数据搜集时间放在这几天;比如,ta们以为五毛会在Twitter上直接使用"习近平"、"达赖喇嘛"这样的词汇;再比如,ta们只在微博上搜集了一些普通官方账号的相关数据。如果真的细读之后还觉得这篇文章写得好,我大概会怀疑你也不太懂中国。
数据搜集这部分就不细谈了,简单来说就是关键词+雪球式爬取,愿意了解的可以去读原文。下一步是确认哪些是水军账号,这一步也比较繁琐。核心就是利用人工标记和机器学习,同时完全没有使用文本和图片作为特征值。最后,我们找出了大概18000个水军账号。
后来从2019年8月起,推特陆续发布了很多次中文水军的数据,加在一起大概一共有三四十万了。我们在文章中有比较Twitter公开数据,几乎可以肯定这是同一批水军;且认为,我们在数据搜集时,应该是找到了绝大部分我们能够发现的水军,但后来这群水军因为华为、香港等等事情又急剧扩张。
在数据分析上,最引人注意的是时间数据。因为其中发帖时间里面有着非常明显的、每半小时就出现的高峰。这几乎就可以说明,利用计算机程序来自动化发帖,是存在的。有趣的是,那些机器人账号并不是真的每个都每半小时发一次,而是在一大群机器人账号里,每半小时就有一些会发帖。
一日之内的发帖时间
而且,这种spike模式并不是一直保持不变的,而是忽高忽低。有趣的是,我们还通过一些非常个性化且有人类思考痕迹的回复里发现,这群水军里的其他账号其实非常可能是人工操作的。
一年之内的发帖时间
2018年以前,能够看到这些水军账号有一个非常明显的高度活跃期,之后又一起归于低调。这也就反应出了这些水军整体来说,一定不是被正常使用,而是受到统一指挥的协同行动。同时,水军发帖有着极强的工作日模式,虽然假期、半夜确实也没歇着。
水军发的内容当然也是非常值得注意。ta们并不是只发政治性内容,相反,多数tweet都是复制粘贴网络上的名人名言、网络小说一类的东西,感觉纯粹是为了凑数。政治类propaganda的重点是郭文贵(后来出现了变化,HK、疫情相关的内容逐渐变得很多),有着大量针对他的人身攻击或者从法律的角度进行攻讦的内容。其他敏感内容也不少,包括红黄蓝幼儿园、北京大兴大火、桂敏海、余文生、吴淦……
这是一个Twitter还没有删掉的水军号
这是一个Twitter还没有删掉的水军号
机器人和人类水军的贴子内容大致相似(虽然topic modeling出来是有区别的),只是在行为上有些区别。机器人几乎只是发在自己timeline上,但人类可能会去retweet和回复。同时,所有账号都会大规模地复用之前已经发过、或者已经在其他账号上发过的内容,也就是说,虽然发帖量巨大,原创性其实极低。
我们同时也考虑了这些账号的共同发帖频率——两个账号有多少对tweet是在一小时或半小时之内出现。而如果有人集中性地控制这些账号的话,这个频率的方差应该会比较高(我们也尝试过利用overdisperse来分析解释,但最后因为不够convincing而没有留下来)。同时,我们可以用这个数据构建了一个"共现网络"(co-occurance network)——将两个账号/node的在半小时的共同发帖次数视为关系/edge上的权重/weight——而且modularity/ 模块度也能反映出这是不是一个正常的网络。这些方法让我们发现这个水军队伍确实是有些人在集中性地控制这些网络,并且能够大概看出ta们的活跃时间。
共同发文的网络图,每一种颜色的聚落可以视为被一个/组人控制的账号
最大的三个账号群的发帖模式
在观察了这些水军之后,一个很自然的猜想是,这些账号本来是商业水军(我也看到有相关的分析,表明这些账号的早期语言其实不是中文)。所以我们从一个中国的公司那里买到了一些假账号来进行比较,最后判断这些中文水军账号应该都是买的,而不是自己创建的。
而且,以这个公司的价格来估计,光是买下我们爬取到的所有水军账号,都要花费130万人民币。如果考虑迄今为止所有被Twitter发现的中文水军账号,光是花在获得这些号上的钱可能就在两千万人民币以上。
账号价格
对propaganda的研究有一个很有意思的观点,就是宣传本身可能没法说服听众,但可以传递出一个"国家很强大,别闹事"的信号,带来寒蝉效应。但是,我们在Twitter propaganda这个案例上并没有发现这点。甚至,因为极少有人看到或者回应水军账号的帖子,我们认为这场propaganda在很大程度上、在我们观察的时间段内没能达到操控舆论的目的。
当然,这场宣传行动的目的可能就不是操控舆论(说不定只是这个团队本身想要借机多要点经费、提高地位),所以我们也只是在有限的范围内、有条件地得出这个结论。
我觉得多数人看到这群水军都会有很多问题:谁是这群水军背后的人?为什么要在被屏蔽的Twitter上进行五毛一样的宣传?
第一个问题,我其实没有答案,虽然我和多数人一样都有一样的强烈怀疑,但没有直接扎实的证据。不过,Twitter倒是很有信心地说,这就是中国政府支持的水军行动(如此清晰直接的矛头倒是省了我不少事情)
第二个问题,我的怀疑是,郭文贵是导火线。在Twitter上搞宣传的劣势很明显,所以不到万不得已不会大规模地做这个。但郭文贵这个有资源且确实可能有威胁的人之前总是在Twitter上活跃,要有效反击他恐怕就必须得到Twitter上来"抢占舆论上甘岭"了。而且,这次反击其实可能会有效的——因为郭文贵实在太招人讨厌了……(我并不能在这里作出因果推断,所以只是猜测)
至于为什么在这么庞大的投入下为什么效果还是不明显,我们在文中提出了几种解释:(1)习惯于墙内宣传模式(可以审查、可以让企业配合)的团队不适应开放式社交媒体,守旧的宣传方法水土不服;(2)低动机与官僚主义,上级并不太能监督宣传质量,所以得过且过就是了;(3)因此也就不怎么会注意到问题,不怎么会去改进
更多更详细的分析讨论和例子,欢迎直接阅读原文。
文章版权归原作者所有。