我帮助建立了字节跳动的审查机器 - iYouPort

2021-06-01 原文 #iYouPort 的其它文章

“我帮助建立了字节跳动的审查机器”

  • 这篇文章中有一个细节很有趣 —— “影响力大的账户” 和官方账户会得到特殊的豁免待遇,他们的 “合规性” 是被假定的。换句话说,在中国,也许意味着只有被当局满意的人才能获得足够大 的社交媒体 “影响力” …… 嗯,这只是算法暴政的另一种实践

这个故事来自中国公司 “字节跳动” 员工 Li An,以第一人称陈述。

那是李文亮医生在武汉市中心医院急诊室挣扎着咽下最后一口气的夜晚。我和很多中国网友一样,一直没睡,不断地刷新微博,了解他的最新病情。李医生是一位眼科医生,在COVID-19爆发初期就敲响了警钟。他很快就面临政府的恐吓,然后自己也感染了病毒。当他在2020年2月7日星期五凌晨去世时,我和许多中国网友一样,在微博上表达了对事件的悲痛和愤怒,但我的账号却被删除了。

我感到内疚多于愤怒。当时,我是字节跳动的一名技术工作者,在那里我帮助开发了内容审查的工具和平台。换句话说,我帮助建立了这个审查系统,就对像我这样的人的账号进行审查。我是在帮助把自己埋进中国不断扩大的网络坟墓里。

我没有收到过关于李文亮的明确的审查指令,但微博肯定不是当晚唯一一家无情删除帖子和账号的中国科技公司。我知道字节跳动的内容审查员大军正在使用我帮助开发的工具和算法来删除内容,改变叙事,改变COVID-19爆发期间给中国人带来的痛苦和创伤的记忆。我每天都不由自主地觉得自己是一台庞大的邪恶机器中的一个小齿轮。

字节跳动是中国最大的独角兽之一,也是短视频分享应用 TikTok 、其中文版抖音、和新闻聚合器 “头条” 的创造者。去年,当字节跳动处于美国与北京数据共享的争议中心时,它切断了其国内工程师对海外产品的访问,包括 TikTok 。TikTok 计划在洛杉矶和华盛顿推出两个实体透明度中心,展示内容审查(“节制”)的实践。但在中国,内容审查多半被保存在暗处。

我在一个支持信任与安全团队的中心技术团队工作,该团队位于字节跳动的核心数据部门。数据部门主要致力于开发该短视频平台的技术。截至2020年初,我们创造的技术支持了整个公司在中国境内外的内容审查,包括国内的抖音和国际上的同类产品TikTok。大约50名员工在产品团队工作,100到150名软件工程师在技术团队工作。此外,字节跳动还雇佣了约2万名 “内容管理员”,负责监控中国用户的内容。他们在天津、成都(四川)、济南(山东)和其他城市的 “基地” 工作。有些是字节跳动的员工,有些是承包商。

我的工作是利用技术使低级内容管理员的工作更有效率。例如, 我们创建了一个工具,让审查员可以把一个视频片段扔进我们的数据库,然后搜索类似的内容。

当我在字节跳动时, 我们收到了多个审查 “基地” 的请求,要求我们开发一种算法,可以自动检测到说维吾尔语的抖音视频,然后切断直播环节

那些审查员之所以提出这个要求,是因为他们不懂语言。说汉族人听不懂的民族语言和方言的直播者会收到警告,要求他们改说普通话。如果他们不遵守,审查员会以手动切断直播的方式回应,而不管实际内容是什么。但当涉及到维吾尔语时,如果有一个算法能自动做到这一点,审查员就不必为遗漏当局可能认为的所谓的煽动 “分裂主义” 或 “ 恐怖主义 ” 的内容负责了。

我们最终决定不这么做。我们的系统中没有足够的维吾尔语数据点,而且 最受欢迎的直播间已经全部被严密监控了。

事实是,政治言论只占被删除内容的一小部分 。中国网民精通自我审查,知道什么不该说。字节跳动的平台 — — 抖音、头条、西瓜和火山短视频  — — 大多是娱乐型的应用。我们主要审查了中国政府认为有道德危害的内容 — — 色情、猥亵对话、裸体、图形图像和脏话 — — 以及未经授权的直播带货和侵犯版权的内容。

但政治言论仍旧是大势所趋。中国的用户生成内容平台最害怕的就是没有删除政治敏感内容,而后使公司受到政府的严厉审查 。这是一个生死攸关的问题。偶尔,字节跳动的内容审查系统会瘫痪几分钟。这让人很紧张,因为我们不知道在那个窗口期里会发生什么样的政治灾难。作为一家年轻的独角兽,字节跳动并不像其他科技巨头那样拥有强大的政府关系,所以它每一秒钟都在走钢丝。

我所在的团队、内容审查政策制定者,再加上约2万名内容审查大军,帮助字节跳动免受重大政治影响 ,取得了商业上的成功。字节跳动强大的算法不仅可以对用户进行精准的预测和推荐内容  — — 这也是它在世界其他地方最出名的事之一,尤其是,还可以协助内容版主进行迅速的审查。在中国,没有多少科技公司有这么多的资源专门用于审核内容。中国的其他用户生成内容平台都没有字节跳动的审查能力。

我的许多同事对我们所做的事感到不安。他们中有些人在大学里学过新闻。有些人是顶尖大学的毕业生。他们受过良好的教育,而且是自由派。我们时常会公开谈论我们的工作如何帮助审查。但我们都觉得无能为力。

当然,理想主义的微光还在燃烧。也许是我太天真了 — — 我曾想,如果我再努力一点,也许就能像中国人说的那样 “把枪口抬高一寸” :让更多的言论偷偷溜走。最后,我才知道我的影响力到底有多有限。

在日常审查方面, 中国网络空间管理局会经常向字节跳动的内容质量中心发出指令,该中心负责监督该公司在国内的运作 :有时一天会发出100多条指令。然后,他们会责成不同的团队将具体指令应用到正在进行的直播和过去的内容上,这些内容需要被搜索以确定是否允许保留。

在直播节目中,每个音频片段都会被自动转录成文本,让算法将笔记与一长串不断更新的敏感词、日期和姓名、以及自然语言处理模型进行比较 。然后,算法会分析这些内容是否有足够的 “风险” 需要单独监控。

如果用户提到了一个敏感词,内容审查员就会收到原始视频片段和显示该词出现位置的抄本。如果审查员认为该言论敏感或不恰当,他们就会关闭正在进行的直播环节,甚至暂停或删除该账号。

在政治敏感的节日里,如10月1日(中国国庆节)、7月1日(中国共产党生日)或重大政治纪念日(如1989年天安门广场抗议和镇压纪念日)前后,内容质量中心会生成特殊的敏感词清单,供审查员使用。影响力高的账户享有一些特殊待遇 — — 有内容审查员专门负责监控某些著名的频道,以防他们的内容或账号被误删。 一些极受欢迎的影响力账户、国家媒体和政府机构都在字节跳动生成的白名单上,不受任何审查 — — 他们的合规性是被假定的

我所在团队的同事并没有直接接触到内容审查员或互联网监管机构。内容质量中心提出了审查准则,并直接与 “基地” 经理合作实施。在重大事件或敏感的纪念日之后,运营方面的同事会向大家汇报哪些是有效的,哪些是需要改进的。我们在这些会议上,看看我们能做什么来 “更好地支持审查行动”。

我们的角色是确保低级内容审查员能够尽快发现 “有害和危险的内容” ,就像大海捞针一样。而我们的任务是提高审查效率。也就是用尽可能少的人去发现尽可能多的违反字节跳动社区准则的内容。我不记得我在字节跳动工作期间中国政府有任何重大的政治打击,这意味着我们做足了工作。

这当然不是一份我会自豪地告诉我的朋友和家人的工作。当他们问我在字节跳动做什么的时候,我通常会告诉他们我删帖。我的一些朋友会说,“现在我知道是谁封了我的账户了” 。我帮助创建的工具也可以帮助对抗假新闻等危险。但在中国,这些技术的一个主要功能是审查言论,消除对重大事件的集体记忆,无论这种功能多么不经常被使用。

李医生警告他的同事和朋友,一种未知的病毒正在侵袭武汉的医院。他因此受到了惩罚。而几个星期以来,由于当局掩盖了危机的严重性,我们不知道到底发生了什么。大约在去年这个时候,许多中国科技公司都在主动删除那些不属于中国政府后来批准的 “正确集体记忆” 的帖子、视频、日记和图片。试想一下:如果有任何一个社交媒体平台能够拒绝政府的审查指令,保留李医生和其他人的警告,也许今天会有数百万人的生命得到挽救。⚪️

I helped build ByteDance’s censorship machine


文章版权归原作者所有。
二维码分享本站