政府间谍如何监听并自动识别电话通话中的敏感词?

这是2015年的揭露，有中国朋友对这种监听敏感词的方式感兴趣，我们使用这篇文章作为一些时间线方面的解释 —— 文末附带文档资源

【注】斯诺登文件已公开部分的中文讲述在这里看到《互联网霸主的时间线 — — 他们将互联网视为间谍、破坏和战争的主场》。

在中国，我们收到一些朋友的提问，他们怀疑当局的监视如何针对每一部电话的每一次通话？如何才能从无数通话中准确抓取到任何所谓的 “敏感词”？

人工监听是不可能做到这点的；如果您假设语音搜索的技术领域是个空白的话，这肯定是一个不可能完成的任务。但语音搜索真的不是空白 —— 美国间谍早在十几年前就开始成功实现了这种监听，即：实时地从无数通话中抓取和查找任何想要的关键词。

但您永远不可能知道他们用来瞄准您的敏感词是什么。它可以是一个隐喻词、可以是一种含混的模糊表达形式、甚至只是一个人名或地名 …… 您的电话通话和几乎所有互联网语音通话都是完全透明的。

来看看他们是如何做到这点的。

如今大多数人都已经意识到，他们曾经认为是私密的电子邮件和其他数字通信，都可以成为他们被永久记录的一部分。

但即使人们越来越多地使用那些能够理解他们所说的话的应用程序，大多数人也仍然没有意识到自己所说的一切都在被监视监听

斯诺登档案中的绝密文件显示，国安局一直可以自动识别电话内的对话内容，通过创建粗略的文字记录和语音，可以轻松搜索和存储任何通话。

文件显示， 国安局的分析师 在十几年前 就已经开始庆祝他们所谓的 “语音谷歌” 的发展了 。

尽管对自然对话的完美转录显然仍是情报界的 “圣杯”（一种至高无上、难以达成的目标），但是，斯诺登文件中已经描述了关键词语音搜索技术的广泛使用，以及旨在分析和 “提取” 任何政府间谍想要的语音对话内容的计算机程序，甚至 使用复杂的算法来标记间谍们感兴趣的任何对话 。

这些文件包括在伊拉克和阿富汗等战区以及拉丁美洲使用语音识别的生动例子。但是，这些文件没有说明间谍机构究竟在多大程度上广泛使用这种监听能力，特别是在收集大量通话的程序中， 这些通话包括居住在美国的所有人和美国公民。

监视国际电话一直是国安局监控的主要内容之一，但要求实际人员进行监听意味着它实际上只能限于总流量的一小部分。通过利用自动语音识别的进步，NSA已经进入了大批量监听的时代。

而这是在没有任何公众监督、听证会或立法行动的情况下发生的。国会 并没有 表现出甚至知道这是怎么回事的迹象。

美国自由法案 —— 国会目前正在辩论的监控改革法案 —— 根本没有 涉及这个话题。该法案也许将结束一个不收集语音内容的NSA项目：一直以来政府大量收集国内通话数据，显示谁给谁打电话，以及多长时间。

但是，即使该法案成为法律，斯诺登曝光的众多监视机制仍然会被保留下来，在美国和 全球范围内 挖出大量无辜者的文本短信和语音通信。

The Intercept 联系的公民自由专家表示，NSA的语音转文本功能是一个非常令人不安的例子，说明随着整个世界的数字化进程，隐私侵犯正在成为最大威胁。

“我认为依旧有很多人不明白，监控的经济学已经被完全改变了”，斯坦福互联网与社会中心的公民自由部门负责人 Jennifer Granick 说。

“一旦你拥有这种能力，那么问题是：如何部署它？你能缓存所有美国电话，抄录所有电话，并对电话内容进行文本搜索吗？” 她说，“这可能不是他们现在正在做的事，但他们将能够做到这一点。”

而且，她问， “如果他们改变政策，我们如何才能知道？”

事实上，NSA官员 一直在对 他们将语音转换为文本的能力、以及他们如何广泛地使用这种能力的秘密，留下了大量的证据。

如何打破这种保密性是关键，Granick 说。“我们不知道有多少无辜的人受到影响，也不知道这些无辜的人中有多少是美国公民。”

【注：间谍机构可以拒绝任何监督，包括总统和国会都无法真正监督间谍机构；间谍机构的官员不会通过选举产生，公民对他们一无所知，但是，他们随时可以倾覆全世界任何地方的人们的生活。在国家安全局工作了30年的领先情报专家 William Binney 曾经在接受采访中对此有过解释，这份对话见《全球暴行的同谋者》】

国安局吹哨人 Thomas Drake 曾接受过语音处理加密语言学的培训，并在该机构工作到2008年，他告诉 The Intercept， 911后，他看到了一个巨大的推动力，让间谍们想要将收集到的大量语音通信转化为更有用的东西。

人工的监听显然不会是解决方案。“没有那么多耳朵可用”，他说。

他说，新监视系统中出现的抄本并不完美，“但即使不是百分之百，监视者也能获得更多的信息。它更容易获得。可以对照它进行搜索。”

Drake 称，将语音转换为文本，使NSA更容易看到间谍们收集和存储的内容。“具有突破性的问题是，能够在多大范围内做到这一点，”他说。

在国外广泛使用

无论是通过普通电话线、手机网络还是通过网络语音服务发送的语音通信，都可以被国安局收集 。此前公布的斯诺登文件中已经描述了NSA在过去十年中为 获取 Skype 通话等网络语音内容所做的巨大努力 。

档案中的其他文件记录了该机构对以下事实的调整，即越来越大比例的对话，甚至是那些以固定电话或移动电话开始的对话，最终以数字化数据包的形式飞过同样的光纤电缆，而NSA对其他数据和语音通信的挖掘非常有效。

The Intercept 所搜索和分析的斯诺登文件记录了NSA广泛使用语音到文本转录技术来搜索国际电话中截获的内容 —— 特别是在伊拉克和阿富汗，以及墨西哥和拉丁美洲。

例如，语音转文本是被称为 “实时区域网关”（RTRG）的复杂分析计划的一个关键但以前未被提及的元素，该计划 始于2005年 ，据《华盛顿邮报》报道，当时新任命的国家安全局局长 Keith B. Alexander 说国安局 “想要得到一切：每一条短信、电话和电子邮件，都可以被该机构强大的计算机吸走”。

2006年6月 国安局的一张幻灯片介绍了 VoiceRT 的作用。

这种从语音中搜索敏感词的技术也延伸到对伊朗的拦截。2006年的一份备忘录报告说，讲波斯语的分析人员成功地使用了 RHINEHART，他们 “在通信中搜索 ‘谈判’ 或 ‘美国’ 等关键词时，RHINEHART 找到了一个非常重要的电话，并逐字进行了转录，提供了一个重要的伊朗目标关于组建伊拉克新政府的讨论的情报”。

根据2011年的一份名为 “人类语言技术（HLT）进展如何？” 的备忘录中，NSA当年在阿富汗、在德克萨斯州和佐治亚州的设施，以及由特别收集处（ NSA/CIA 的一个联合单位， 在大使馆和其他地点运作 ）在拉丁美洲运行的监听站，都部署了 “HLT实验室”。

【注意：Special Collection Service，代号为F6的特别收集部门是高度机密的中央情报局-国家安全局联合计划， 负责在外国大使馆，通讯中心和外国政府机构等难以到达的地方插入窃听设备 。SCS成立于1970年代末，总部位于马里兰州的贝尔茨维尔，参与了从冷战到全球反恐战争的各种行动。】

备忘录说：“西班牙语是我们最成熟的语音转录文本分析方法”。备忘录指出，NSA 及其在拉丁美洲的特别收集服务站点，在搜索西班牙语敏感词方面取得了 “巨大成功”。

该备忘录提供了NSA德克萨斯州的一个例子，在那里，一名新接受系统培训的分析师使用敏感词搜索找到了以前未报告的关于一个监视目标的信息。在另一个案例中，拉丁美洲的一个特别收集服务站点的一名官员 “能够在很少的时间内就找到关于一名古巴官员的外国情报”。

在2011年的一篇题为《从墨西哥到阿富汗，在一大堆语音收集中快速掘金》的文章中，一位来自国家安全局德克萨斯州的情报分析技术总监描述了他了解的人类语言技术 “惊人的改变生活的事例”，以及它 “在大量的收集数据中准确找到感兴趣的流量” 的能力。

得克萨斯州的情报分析家们发现这项新技术是间谍活动的福音 。“从寻找蒂华纳的隧道，到识别墨西哥城街道上的炸弹威胁，或者揭示墨西哥波托西的美国海关官员被枪杀事件，这项技术都起到了它所宣传的作用。他写道： “在时间紧迫的情况下，它加速了寻找相关情报的过程。” (强调：原文如此)

备忘录的作者也是向阿富汗军事领导人介绍该技术的团队成员。“从坎大哈到喀布尔，我们走遍了全国，向NSA领导人解释了他们的愿景，并向 SIGINT（信号情报）团队介绍了HLT分析技术今天能做什么，以及为了 使这项技术取得改变游戏规则的成功 还需要做些什么”，该备忘录写道。

使用的程度仍然未知

档案中不太清楚的是，这种能力在多大程度上被广泛用于抄录或以其他方式索引和搜索主要涉及NSA所说的 “美国” 的语音通话。

尽管作为斯诺登档案一部分的 NSA “指南” 中明确指出，“NSA/CSS已经创建了HLT模型”，用于语音到文本处理以及性别、语言和语音识别，但NSA并没有回答一系列关于自动语音识别的详细问题。”

事实上，处理过程可以帮助人类语言学家对音频文件进行分类和优先处理，而且统计模型根据实际截获的数据定期进行改进和更新。相比之下，由于它们是利用实际截获的音频文件进行调整的，所以系统的具体参数是高度机密的。

“国家安全局在授权的对外情报任务过程中，采用了多种技术”，发言人 Vanee’ Vines 在给 The Intercept 的邮件中写道。“这些技术由国安局专门的专业人员操作 …… 。”

Vines 没有回答有关处理美国国内或国内对国际语音通信的隐私保护的具体问题。但她写道：“NSA总是 按照总统2014年1月的指示 ，实施 ……”

由总统任命但独立的隐私和公民自由监督委员会（ PCLOB ）在其公开报告中 也没有 提到语音转文本技术。

“我不会去讨论任何项目是否具有这种能力”，PCLOB 主席 David Medine 告诉 The Intercept。

他说，他的委员会的报告 只包含情报界同意可以解密的信息 。

“我们去了情报界，要求他们解密大量的材料”，他说，这些材料的 “大部分” 都被解密了，但并不是全部 —— 包括 “我们认为可以在不损害国家安全的情况下解密的事实”。

Medine 说，从假设的角度来看，将语音转化为文本的能力将引发重大的隐私问题。而且这也会引起情报机构如何 “最大限度地减少被保留和传播的材料 —— 特别是涉及美国公民的材料 —— 的问题，这些材料包括他们并没有明确允许保留的信息。

“很明显，这种技术增加了政府监听更多电话的能力”，Medine 说。“这将引发更多的隐私问题。”

新的学习曲线

语音识别专家 Bhiksha Raj 将当前的时代比作互联网的早期，当时人们并没有完全意识到自己打出的东西会永远存在。

“当我在90年代开始使用互联网时，我只是在发布一些东西”，卡内基梅隆大学语言技术研究所的副教授 Raj 说，“我从来没有想到，20年后我可以自己去谷歌，把这些东西都挖出来。想象一下，如果我曾经在 alt.binaries.pictures.erotica 之类的网站上发了一些东西，现在这个帖子会让我永远尴尬。”

他说，语音通信的使用量也越来越大。而且，鉴于世界上大多数的通信在历史上都是通过语音进行的，而且，它传统上被认为是一种私人的通信模式，所以风险就更高了。

“人们仍然没有意识到这个问题可能达到的相当严重的程度”，Raj 说， “而且这不仅仅是监控”，他说，“人们一直在使用语音服务。而这些语音去了哪里？谁知道？…… 你是靠信任生活的。而现在，我认为你不能信任任何人。”

对新规则的需求

Stilwell 科技政策高级研究中心执行主任 Kim Taipale 是十年前试图让政策制定者认识到现有的监控方法并不能充分应对新的全球通信网络和包括语音识别在内的先进技术的几个人之一。

“事情不再是短暂的”，Taipale 告诉 The Intercept，“我们生活在这样一个世界里，许多曾经可以稍纵即逝的事，现在都被永久地记录下来了。那么问题就变成了：这有什么后果，要用什么规则来处理这些后果？”

Taipale 说，从现实的角度来看，“政府有能力批量搜索语音通信是我们在未来某些情况下可能不得不接受的事之一”。但是，至少需要 “明确的公共规则和有效的监督，以确保这些信息只用于符合宪法原则的适当的执法或国家安全目的。”

最终，Taipale 说，考虑到人为滥用和误用导致侵犯人权的可能性， 计算机标记可疑语音通信的监视系统可能比人工进行监听的系统更具侵犯性 。

但在美国公民自由联盟的言论、隐私和技术项目的高级政策分析师 Jay Stanley 看来， 从隐私人权、可能的后果以及对言论的寒蝉效应来看，人工的监听和电脑的监听之间并没有什么区别 。

“人们最终关心的，也是最终产生寒蝉效应的，是后果”，他说，“我认为，随着时间的推移，人们会更加害怕电脑监听，就像害怕人类的监听一样，是因为它可能带来的后果。”

事实上，电脑监听的确会引发新的担忧。 2006年 NSA的一份内部备忘录称，“正在开发的一项重要增强功能是， 这种HLT能力能够让情报分析人员根据目标人过去的行为模式预测哪些被截获的数据可能应该成为新的敏感词 。”

【注：也就是少数派报告模式的行为预测。（在这里看到人类行为预测技术如何毁掉了民主）。】

该备忘录引用了亚马逊不仅追踪而且预测买家偏好的能力，称设计用于标记有趣的截获数据的 NSA 监视系统 “为向分析师提供高度丰富的流量排序带来了希望”。

在加州大学戴维斯分校计算机科学教授 Phillip Rogaway 看来敏感词搜索可能是 “我们最不需要解决的问题”。在给记者的一封电子邮件中，Rogaway 警告说：“当NSA根据当代NLP[自然语言处理]方法确定某人为目标人时，可能除了：‘此人的语料库与我们认为是重点监视目标的其他人的语料库相似’ 之外； 更要紧的是，概念上的相反 —— “他的话语听起来与大多数人都不同”。

Rogaway 写道：“如果NSA计算机用来识别威胁的算法太过复杂，人类无法理解，那么就不可能理解人们据以判断的监控设备的轮廓。人们能够做的唯一一件事就是，尽力让自己的行为和其他人一样。” 这就实现了大规模的行动操纵。

本文附带的文档：

RT10 Overview (June 2006)
For Media Mining, the Future is Now! (August 1, 2006)
For Media Mining, the Future is Now! (conclusion) (August 7, 2006)
Dealing With a ‘Tsunami’ of Intercept (August 29, 2006)
Coming Soon! A Tool that Enables Non-Linguists to Analyze Foreign-TV News Programs (October 23, 2008)
SIRDCC Speech Technology WG assessment of current STT technology (December 7, 2009)
Classification Guide for Human Language Technology (HLT) Models (May 18, 2011)
Finding Nuggets — Quickly — in a Heap of Voice Collection, From Mexico to Afghanistan (May 25, 2011)
How Is Human Language (HLT) Progressing? (September 26, 2011)
“Black Budget” — FY 2013 Congressional Budget Justification/National Intelligence Program, p. 262 (February 2012)
“Black Budget” — FY 2013 Congressional Budget Justification/National Intelligence Program, pp. 360–364 (February 2012)

⚪️

HOW THE NSA CONVERTS SPOKEN WORDS INTO SEARCHABLE TEXT

觀點2

政府间谍如何监听并自动识别电话通话中的敏感词? - iYouPort