如何获取、挖掘、分析各种来源的调查数据完整指南:解码秘密(1)- 哪些方式可以找到您想要的东西? - iYouPort

2020-12-01 原文 #iYouPort 的其它文章

如何获取、挖掘、分析各种来源的调查数据完整指南:解码秘密(1)- 哪些方式可以找到您想要的东西?

  • 本指南主体将分为4部分发布,此后还有附带其他内容和资源

【按】IYP曾经与一些中国的公民调查人员交流,我们为这些中国公民的积极思考、创意和行动力而感到兴奋。独立公民调查和调查组织是 直接行动 的一种很有力的形式。

一些朋友曾经询问能否将一项能力相关的所有内容做成一个综合指南,这的确是一个很好的想法,事实上我们之所以制作了5个列表,正是为了这个目的 —— 从理解问题到想办法解决问题的系统。当然,这些列表依旧是很长,而且不是简单明了的树形结构,这是因为您可以根据您的具体需求从中组织出很多子系统来。

而我们很可能无法预测所有读者的具体需求,由我们来制作综合指南的结果也许会适得其反,限制了您的创造力发挥。

本系列内容不同,它是专门服务于公民独立调查工作的一份详尽指南,准确说是一个框架,它列出了您有可能想要采取的模式、可以尝试的工具、资源、以及思考方式。

BlueLeaks 泄漏警察数据库 时,一些中国读者留言询问 “这意味着什么”? 如果您能找到方法自己分析和利用这些数据,您就能从中找出支援您的反抗目标的重要见解。

再一次,公民 无法 完全依赖职业媒体的调查工作,这些媒体将对信息作出有利于他们的金主(而不一定是我们这些公民)的利益的取舍。吹哨无疑是重要的,信息权运动也在全球很多国家取得了卓越的成就,但更重要的是, 这些信息流出来之后如何从中挖掘出重要的调查线索、以揭示鲜为人知的权力秘密,是公民调查人员急需掌握的技能

希望这份指南能对您有所帮助。

本指南尽可能使用精简的方式讲述公民调查的方法问题,关于:从获取数据开始,到利用数据。它可能会显得像一个风格和组织原则结合在一起的指南, 相比零散的知识来说,它将更方便您的使用,抵达您最感兴趣的部分不会花太长时间的查找。

关于数据的指南其实并不少,那么本指南的特色是什么?简单说,它将重点关注的是数据在一些可能情况下的功效,而不会迷信于数据的力量。

关于这份指南:来自8个国家的11人参与了这份指南的编写工作;在38个案例研究中介绍了来自20个国家的情况;配有76张图片;推荐了64种工具和89种资源。

本指南适合所有国家的公民调查人员、非政府组织、独立权利组织、反抗社区,即 所有支持 直接行动 的人和群体。

【注】 本文中涉及到的书籍和资料,您可以在这里下载

马上开始。

查找

这一节将探讨 “寻找” 数据的三种方式。

首先是政府通过信息自由请求或开放数据计划允许公民查阅一部分数据,但这种情况极为罕见,并且,即便拥有信息自由法案的国家,当权者也会极力掩盖真相。回顾一个信息自由法案失败的反抗案例:《 高明的反抗 》。

其次是吹哨人和机构泄露信息,利用数据库寻找数据,也就是透明度革命这几十年来所做的。吹哨平台和吹哨人获得了很多成功,但是也遭到了最严重的打击 —— 以美国为首的针对吹哨人展开的斗争蔓延至全球,极为惨烈 :说了真话的人被判处 50年监禁 ,全球最好的吹哨平台负责人面对 175年监禁的惩罚

但依旧没有磨灭人们的斗志,不断有新的泄漏出现,反抗不断升级、变得更加激进。前人的遭遇帮助后来者积累了 更丰富的经验 教育也在跟进 ,未来依旧是有希望的。关键是, 让人们掌握更多安全技能,以尽可能少地避免迫害的发生。

最后,当没有信息自由法案、也没有吹哨人和 黑客主义行动者 的泄漏,您无法直接查看数据,这种情况下您就必须 找到创造性的方法 来寻找数据。

在开始之前

在决定您需要探索什么数据,和/或扩大您的调查时,您可以有很多方向。在开始讨论在哪里找到这些数据之前,重要的是要考虑您需要这些数据来做什么。

📌 我们将从五个考虑因素开始,确定这些因素有助于决定您需要什么样的数据以及在哪里寻找数据来源。

1、数据是否特别符合您的调查目标

这关系到您要实现的目标是什么,您的受众是谁,以及可能对他们有用的数据输出类型。

他们需要哪些数据,觉得这些数据可信吗,您能收集到这些数据吗?您如何将数据传递给他们,您希望他们用这些数据做什么?您如何知道这些数据对于推进您的反抗目标是有用的?……

提前思考如何使用数据,将对您收集数据的方式以及数据的详细程度产生重大影响。 从一开始就明确这一点,将使您免于回过头来填补漏洞

比如您正在调查一起强迫失踪案件 —— 当权者对活动家的迫害,您的受众不仅包括该事件的当事人亲属,还有当事人所在的社区、国内外各种人权组织、本土关注人权问题的活动家社区,如果您的调查目标是收集证据起诉警察部门的非法行为,那还要包括律师和法庭。

您需要考虑所有这些期待您的调查结果的目标受众都着眼于哪些数据,尽可能照顾全面,数据类型要符合需求 —— 尤其是提交给法庭的证据,逻辑链必须清晰和正确; 传递这些数据的过程需要确保安全,不仅有您必须掌握的技术方面的匿名传递方法,也包括面见对方时绕避监视跟踪的技巧

并且,您需要跟进这件事,当您将数据交给对方后,他们如何使用它来推动反抗运动和法律行动,您将有资格评议他们的做法是否成充分 —— 有错过什么价值吗?用建议的方式提醒他们。

2、回收利用现有数据集

可能会有一个由倡导者和官方组织和团体组成的 “生态系统”,它们已经在收集和发布与您寻求的问题有关的信息。

想想看,您是否可以通过增加现有信息的价值,制作新的分析,或以有趣的新格式或服务向新的受众提供这些信息,从而改善现有信息的使用方式?

您是否可以通过与这样的团体建立伙伴关系来实现您的目标?当然,您可能有很好的理由独立进行调查,即使其他人已经在研究这个问题;这些理由可能包括:创造关键的和替代性的信息资源、通过证据积累促进您所在的倡导组织的复原力、以及培养自己的技能和能力,等等。

3、研究方法和支持的技术

您将使用哪种方法来收集调查数据?

例如,人权工作中常见的文件和调查方法依赖于对可能构成侵犯人权事件的受害者和幸存者的报道或采访,然而,要使用这类材料作为有意义的分析来源,就需要了解统计学抽样、内容分析法和一系列技术。

再一次,您需要紧贴您的目标,采取最有效地服务于您的目标的研究方法。

4、您和参与调查项目的其他人将面临的风险

由于许多倡导动员活动都集中在敏感、禁忌或政治性很强的话题上,因此,您必须对所收集的数据可能涉及的各种风险保持敏感。

您将采取什么措施来保护受访者的身份和他们提供给您的材料的内容?如果将信息存储在电脑上,您将采取什么措施来确保信息能被正确的人使用,而不会落入坏人手中?

📌 这里需要您使用到我们在 “ 敌对环境中的安全性 ”系列、“ 难以被追踪 ”系列、以及以下这些给行动者的安全技巧中介绍过的知识:

5、您的计划涉及的范围和可持续发展性

试着勾画出您正在计划的数据收集举措的覆盖范围、规模、地理范围和全面性。

您现在的工作规模是否允许您有效地覆盖这个调查主题?您是否有足够的时间和资源进行测试以验证其对您的反抗目标的有效性?您是在进行一个 “一次性” 项目还是一个长期的计划?如果您正在计划发展,您认为当您的计划扩大时,会遇到什么样的系统和人员管理挑战?

希望这些问题能够帮助您决定可能需要什么样的数据以进行调查。 准确回答这些问题很重要。

现在我们将看看在哪里可以找到这些信息。

挖掘数据

如上所述,通过信息自由法案申请、吹哨人、以及技术和创造性发布的数据,已经使得越来越多的数据可以公开获得。各国政府和国际机构正在公布更多的数据,世界各地越来越多的举措正在使公民反抗者更容易以有意义的方式使用这些数据。

调查人员、艺术家、活动家、和技术专家正在利用这些越来越多的数据去揭露权力滥用和阴谋,澄清税款是如何被使用的,并研究公共服务的真实运作方式。

然而,有些时候情况恰恰相反。正如我们曾经在 “ 开源情报挖掘谷歌政治旋转门 ” 的演示中所强调的: 越是接近权力的顶层,信息就越少、保密度就越高、越难以找到证据 。不论是政府还是寡头公司,都是如此,官官相护,如果您的调查对象是这些 “1%”,这些权势会联合起来阻止你。

这在大多数国家都是如此,即便有信息自由法案,也基本形同虚设。许多活动家所掌握的数据往往是通过顽强而冒险的调查,以不寻常的形式被发现、泄露出来的,如 吹哨人 黑客主义行动 者。

如今所有人生活在一个量化的社会中,每个人都在不断地产生数据,这在一定程度上对于揭露隐藏的证据来说是极其重要的,因为这为我们创造了新的探索渠道和选择, 以对比审视和批驳所谓的 主流叙事

仍然存在有些地方和人既没有连接到互联网,也无法使用技术,然而不幸的是,他们的生活和档案也依然受到量化社会的影响,因为各种行为者争先恐后地连接和量化这些人和地方,往往很少关注隐私、同意、人权和其他政治、社会、经济和文化后果。

这就是为什么如今开源情报的能力被全世界所 “重视”,当然,这其中有善意的、也有恶意的 —— 在这里看到详细解读, 关于正义的人们如何才能避免自己好心办坏事 :《 这不是一场竞技表演:关于IYP为什么要采取开源情报 》。

M.C. McGrath 在开源情报协助透明度革命的访谈中介绍了这三种不同类型的开源数据。在这里看到这份访谈,我们认为这份访谈很重要,虽然它可能因过于激进而引起争议:《 用技术作为促进透明度革命的武器:一个成功的尝试 》。

他指出的第一种是:FOIA请求或开放数据倡议,这很好,但是, 政府完全可以选择发布什么,并操纵公开的内容 。所以在某些方面,这是最弱的方式。

第二种就是透明度革命,吹哨人将机密文件发布给记者和媒体,并以这种方式公之于众。这具有非常大的危险性,而且随着全世界对吹哨的维稳程度快速升级,可能难度会更高。

第三种方式就是, 利用内部人和机构自己不小心泄露出来的数据 。这个渠道强大的地方在于,人们并没有明确决定要发布,甚至连吹哨人都没有明确决定泄漏这些信息。但是, 这要靠调查人员去收集和分析理解 。单独的信息碎片可能看起来不起眼,但是,当它们以合理的方式联系起来时,就有可能揭露惊人的秘密。

这方面有一系列非常显著的案例,比如见这里《 政治涂鸦和隐藏的信息:标志、符号和其他视觉线索协助追踪调查的入门指南 》。

这种方法不依赖于任何其他实体,除了那些不小心发布信息的人之外,这种情况总会以某种方式继续发生。

这一小节内容将探讨上述三种 “挖掘” 数据的方式。

数据在那里,但是您必须恳求政府交出来 —— 信息自由法案或开放数据请求

您认为您的国家的公共机构创造了多少信息和数据?长期以来,各国政府至少公布了其中某种数据,通常是通过国家统计局、或通过各种不同的专题网站。然而,目前一些政府公布的数据的规模和性质与甚至短短几年前的规模和性质已经有很大的不同。

在这一领域有两个互补的积极 “运动”。 第一个是 “信息获取” 运动,也被称为信息自由运动(FOI);第二个是 “开放数据” 运动

信息获取运动者向政府施加压力,要求政府制定和实施法律,使公民能够向任何属于国家或受国家控制的官方机构提出问题,并得到及时和全面的答复。

他们的理念是,用纳税人的钱制作的信息属于纳税人,应该不受限制地提供给公民。当公共机构对民众的疑问做出回应,并主动公布他们的信息时,民众就能看到、更并好地了解和监督自己的税款资助的公共机构的运作。

获取信息被认为是有效参与公共生活的必要条件;是纠正人民与管理他们的强大机构之间的权力不平衡的重要工具。

而开放数据活动家在这些理念的基础之上,关注公共机构发布的数据和信息的再利用。这是 互联网带来的两个重要变化 的后续:

  • 共享任何类型信息的成本、以及共享和使用信息的方法,越来越便宜;
  • 世界各地的 “数字原住民” 都在互联网上创造和消费信息。许多人将在线论坛、社交媒体和博客作为生活的重要组成部分,利用它们来学习、形成观点和寻求建议。其他技术性较强的群体会制作数据库和可视化 —— 将其放在网上,在地图上显示,使其可搜索 —— 以尝试并展示有趣的或新颖的视角和事物。

技术的可获得性和连通性,以及越来越低的成本,加上法规迫使各机构分享公共资助的数据汇总,使得开放数据的概念在过去几年中不断上升。

开放数据之所以能够实现,是因为这些机构一直在使用信息通信技术来收集和分析数据 ,如果您已经拥有了人和机器可读格式的数据,为什么不把它开放出来呢?这样就可以在不同的情况下对其进行验证和再利用。

这种方法开始在政府和民间活动中进行试验,往往取得了有趣的结果。当然,政府和民间团体所侧重的主题截然不同 —— 就如在中国,镝次元那样的公司倾向于展示例如 “中国新中产阶级年龄分布图”、或者 “中国AI+融资状况”等等,而公民权利组织如 “非新闻” 则使用数据专门制作 “中国民间维权运动分析”。

开放数据的影响需要更长时间来确定,权利倡导团体对它的一个共同的反对意见是, 更多数据的可用性并不能自动转化为更有效的服务。开放数据和信息自由权本身并不是目的,它们远非完美,如何有效利用它们是需要一些技巧的。

在2015年9月发表的题为 “ 数据科学如何为善 ” 的论文中,Julia Koschinsky 讨论了如何从数据中获得新的且可操作的见解,以及如何将这些见解转化为影响的挑战。

她对被认为是有效的开放数据计划进行了分析,并确定了数据科学技术可以被增加价值的问题类型。她将 “有效” 确定为那些 “被广泛认为能产生新的、可操作的见解、并产生社会影响的” 数据。她将72项案例研究 分为四大类

  1. 通过将数据与更高的时间和空间分辨率结合在一起,并自动执行数据分析以实现更快、更具体的本地响应,从而改善数据基础架构;
  2. 预测风险以帮助有针对性地预防问题发生的服务;
  3. 通过近乎实时的预测来优化资源配置,更有效地匹配供应和需求;
  4. 利用行政数据来评估原因、有效性和影响。几乎在所有情况下,所产生的见解都是基于自动程序的、本地化的、接近实时的和被分类的。

下面的案例研究显示的是另一个有效案例,这个案例在 Koschinsky 的研究中并没有出现,但是这个案例符合她的开放数据计划的多个类别,具有社会影响,是一个最合适的、使供需匹配以优化资源配置的需求。

Transparent Chennai 和信息权法案

欧洲非政府组织 Access-Info 的前成员 Lydia Medland 在谈到2005年实施《信息权法案》的印度时说:

“这是一个很好的例子,说明了信息权可以在哪里成为反抗工具。围绕着信息权,民间社会有很多抗议活动;仅仅是提出这个问题就发出了一个信号,即 社区希望得到被当权者压制的问责。人们想知道一些简单的事,比如 谁是负责发放护照或食品配给卡的人,这就发出了信息,并导致了行动;或者如学校教师的出勤记录是什么,然后学校教师就开始跟进了。”

Medland 所说的信息权的成功,可以从 2010年~2012年期间,印度有100多名信息权活动家被杀害、骚扰或攻击 这一数据中得到证实。

Transparency Chennai 就是一个很好的例子,说明了如何利用信息权请求作为一种策略来解决缺乏开放数据和开放数据基础设施的问题;然而,通过印度信息权请求提供的数据不是数字格式的,也不是在线提供的,而且也不是免费的 (虽然成本可以忽略不计)。不过,Transparency Chennai 的工作还是突出了一个重点: 持续提出问题并获得答案是调查的关键,并能带来意想不到的发现。

Transparency Chennai 是印度钦奈的一个权利倡导行动,有趣的是,它的数据工作成功的原因是,当地缺乏厕所。

Transparency Chennai 为市民提供城市公共服务的信息,供人们在向政府提出要求时使用。该组织发现,与他们合作的城市贫民窟社区的妇女需要知道公厕在哪里,并希望在离家时和工作场所附近的地方有更多的公厕。

Transparency Chennai 组织意识到,这些信息都不容易获得 —— 谁来决定厕所的建造地点、厕所的实际位置、谁来使用、资金从哪里来等等。他们在该市迷宫般的官僚机构中挖掘信息,发现这些服务的信息分散在不同的区域办事处,他们必须亲自前往这些办事处才能获得,当然,他们要等上几个小时,很多时候还要重复访问才行。

他们发现,这些 政府提供的数字甚至不准确 ;直接向地区办事处索取信息的结果是,公厕的数量为572个(对于一个至少有1万户人家没有厕所的城市而言),但当 Transparency Chennai 提出信息权要求时,这个数字又上升到750多个。

接下来,他们让志愿者绘制了这些厕所的位置图,发现这些厕所并没有建在最需要的地方(靠近贫民窟、靠近非正规市场等才是需要的地方),也没有均匀分布,往往集中在某些非居民区,而且 还存在腐败现象 —— 获得建厕所合同的市议员实际上把钱装进了自己的口袋,并没有把厕所建起来

最有趣的是,调查人员发现许多新的城市贫民窟都没有厕所,因为地图和城市规划上根本没有它们的存在。

自1985年以来,钦奈市就没有正式记录过 “贫民窟”,尽管许多贫民窟是随着全国各地的外流劳工的到来而成长起来的。所以,如果贫民窟在规划上并不存在,又怎么会有厕所?

Transparency Chennai 指出,城市规划效率极低,无法满足最边缘族群的需求。此外,从现有资料中挖掘,发现城市规划所使用的人口数字并不正确,城市贫民窟的实际人口比城市所计算的多出70%。

Transparency Chennai 组织现在已经从厕所调查转向公共交通、道路安全、环境卫生、住房; 他们从各种来源汇总信息,并将其提供给其他人权活动家和与城市贫民合作的社区组织者

📌 这个例子为政府、企业和权利倡导团体在互联网时代如何运作提供了新的图景。这些获取和使用公共信息的新趋势是通过重新思考有关透明度的想法和重新定义数据和技术在人权运动中的使用方法和途径,而形成的。

世界各地有许多人都在致力于开放数据倡议,并试图建立和使用信息自由法案。以下是一份 资源清单 ,您也许可以用来调查您的国家可能存在的数据:

数据就在那里,但您必须搜索它 —— 吹哨数据库

最近10年来,吹哨变得更加引人注目。本节将探讨通过吹哨人的泄漏可以获得的信息。这些数据通常会被放到 Wikileaks 等组织托管的可搜索数据库中,人们可以通过海量的索引来了解不同的主题。

吹哨数据库并不是您要探索的唯一数据库。公司数据库、国际和国家金融数据库、和全球注册数据库,也是那些想要调查腐败和滥用权力问题的公民活动家可以充分利用的信息来源。

吹哨人和机构泄漏信息

吹哨是一个重要的情报来源,以帮助公民确定政府、公司和个人的不法行为。本节将介绍三个例子, 所有这些例子都涉及到已经公开的机密信息,所有这些例子都与 Wikileaks 有一定的关系,所有这些例子都已经采取了并制成了可搜索的数据库,向公众开放

这些例子之间的区别是,他们发生的水平和他们泄露的机密信息的类型。TuniLeaks 关注的是政府泄密事件,Hacking Team 泄密事件关注的是一家阴暗的间谍软件公司的内幕信息,而 Transparency Toolkit 关注的是在情报部门工作的个人泄露的信息。

📌 这些例子也涉及不同类型的机密信息:(1) 被公开的机密,(2) 私而不密,(3) 假设隐蔽但实际可获取。

(1) 已被公开的机密:TuniLeaks

2010年11月, Wikileaks 开始公布 美国大使馆和国务院之间发送的25万份泄露的内部备忘录。这些备忘录涵盖了 美国官员40多年来 关于外交关系、人权、腐败、政治和世界上几乎每个国家的事件的机密报告、意见和分析。

Wikileaks 发布后, Nawaat de Tuni —— 一个由突尼斯博客和数字活动家集体运营的独立新闻网站 —— 立即开始通过这些泄漏文件寻找他们可以揭示的有关突尼斯独裁者宰因·阿比丁·本·阿里的信息。

Nawaat 由此成立了 Tunileaks, 将美国驻突尼斯大使馆的相关泄漏文件集中起来,将其从英文翻译成法语,然后在突尼斯互联网上广泛传播这些内容

Tunileaks 被放到网上的前几天,还发生了一连串引人注目的事件。

多年来,突尼斯政权成功地压制了公众对其腐败和侵犯人权行为的异议。2010年12月中旬,公民制作的关于抗议活动的视频和报道开始出现,这些视频和报道与一名青年男子为应对严峻的经济和政治形势而自杀有关,并在社交媒体上传播。

这些视频和报道被半岛新闻网在电视和网上转播。在 不到一个月 的时间里,独裁政权就垮台了。nawaat.org 的共同创始人 Sam Ben Gharbia 在2014年撰写的一篇文章中谈到了 Tunileaks 所产生的影响:

“2014年,本·阿里的宣传部长 Oussama Romdhani 在与英国记者聊天时坦言,“ Tunileaks 是一场政变,是打破本·阿里体制的东西 ”。

“这并不是关于腐败和任人唯亲的揭露,突尼斯人早已不需要 Tunileaks 来告诉他们这个国家是如何腐败的。突尼斯人多年来一直在闲聊和玩笑中调侃腐败问题。不同的是,一个机构如此公开面对自己的丑陋形象,所产生的心理效应。是的,政府自己知道,国内外的所有人都知道,关于它是多么的腐败和专制;而讲述这个故事的人,并不是异议或政治阴谋论玩家, 而是美国国务院,一个所谓的盟友 。这就是泄漏文件告诉人们的。”

📌 Tunileaks 说明了 两个有用的想法 。首先,它表明了关注外部资源以寻找可发挥作用的信息的价值。有时,人们在寻找相关信息时可能会过于狭隘;第二,Nawaat 成功地重新包装了现有的信息,使那些通常无法获得这类信息的受众能够及时获得信息。

(2) 私而不密:Hacking Team

2015年7月8日,意大利间谍软件公司 Hacking Team 被爆出泄密事件,他们的内部邮件数据库完全暴露在网络上可供搜索。Hacking Team 是 众多制造和销售监控技术 和产品的邪恶公司之一。

超过400千兆字节的内部邮件(100万多封)、源代码、发票和 Hacking Team 窃取的文件现在都在 Wikileaks 的可搜索档案 中; 建议您在搜索前安装并使用Tor浏览器 。因为美国间谍一直在监视浏览这些内容的任何人,见《 情报部门如何监视了所有支持 Wikileaks 的人,甚至包括仅仅点击了网页的游客 》。

Wikileaks 和 Transparency Toolkit 都公布了这个数据库,其中透露了他们的运作、联系、以及与世界各地政府和公司沟通的细节。👆上面有此泄漏内容的中文数据分析。

这些信息取自泄露的信息;究竟是公司内部线人导致数据泄露、还是外部黑客入侵,不得而知,至少是没有公布。记者、非政府组织、研究人员和希望对其内容进行分析的调查人员对这些泄密信息很感兴趣,因为这些信息为了解这家非常秘密的邪恶公司的能力和做法,提供了罕见的见解。

📌 通过对这一数据库的搜索,发现了一些东西:

1、 Hacking Team 的客户名单和商业模式详情 —— 也就是说,谁买了这些间谍软件,以及这些间谍工具是如何销售的。

Hacking Team 将其监控技术卖给了一些人权状况恶劣的政府和政权,这些政府和政权因在针对镇压活动家、律师和记者的活动中采取侵略性监控而饱受批评。

Hacking Team 被发现向苏丹、埃塞俄比亚、巴林、埃及、哈萨克斯坦和沙特阿拉伯等国政府出售监控技术。巴林、埃及和摩洛哥政府投资了这些监控技术。

在这些泄密事件之前,Hacking Team 曾明确否认与众多镇压政府合作。这些泄漏信息揭穿了该公司的谎言。2013年,无国界记者组织将 Hacking Team 列为 “互联网敌人” 之一。

2、 魔鬼就在细节中 。这些泄密事件为公民提供了一个难得的机会,可以了解到 Hacking Team 这样的秘密公司的内部运作。

调查性数据报告实验室抓住了这个机会,发表了一份调查报告,重点研究了从检查该公司的元数据中可以了解到什么。

他们发现,有大量的元数据与这些泄密有关。于是,他们进行了一次实验,对现有的元数据进行了不同的方法测试。调查的结论是,研究的目标不是对 Hacking Team 的活动做出任何结论,而是 把 Hacking Team 作为一个案例,研究如何进行元数据分析,以及从中可以学到什么

这项研究的结果是让学界和 “大众” 了解到元数据对隐私的真正重要性。这次研究希望其他人能够受到启发,在自己的调查中使用类似的技术,并基于元数据找到新的联系和线索。

3、 Hacking Team 在销售和使用什么技术

通过泄漏人们了解到,Hacking Team 向执法部门和国家间谍机构出售远程控制系统(RCS)软件。这可以说是 “进攻性黑客”,而不是 “防御性黑客”。

RCS 软件允许这些机构针对电脑和移动设备安装后门。

要深入了解像 Hacking Team 这样的公司在销售什么技术,通常是很困难的,甚至是不可能的。不过,这正是下一个项目所关注的东西。

(3) 假定隐藏但实际可获取,ICWATCH

ICWATCH 也是 Transparency Toolkit 创建的一个项目,该工具包提供了一套从各种公开数据来源收集数据的工具。

ICWATCH 是一个数据库,其中包含了估计27000份 LinkedIn 上从事情报部门工作的人的简历。 该数据库可用于查找有关情报界的内部信息、监视方案、和其他非常私密但通过专业网络平台 LinkedIn 公开发布的信息

McGrath 用自己的话解释了为什么这些信息是被认为隐藏但实际公开的:

ICWATCH 是一个可搜索的集合,目前只是 LinkedIn 上有关情报界内部人士的资料。因为很多人在 LinkedIn 上提到了自己的工作和工作经历,所以他们会这样说:“我知道该如何使用 Microsoft Word 和 XKeyscore”,这只是在 LinkedIn 资料上的技能展示,但有些时候他们也会提到未知的代码字,并对其进行定义。

在 ICWATCH 中,我们有相当多的数据,大约有 27,000 份参与情报界的人的资料,主要是美国情报界,但也有一些人在世界各地。这些人的范围从承包商工作的人、或者可能提到一些高度机密的术语,到在他们的个人资料上列出大量的秘密代码词,有时还对代码字的内容进行有用的描述。

我们把它们都收集在一个地方,并制作了软件,这样一来任何人都可以通过这些软件进行搜索,以更好地了解监控计划,或者哪些公司帮助实施哪些计划,或者这些情报行业人员的职业发展道路 …………

我们既要了解方案本身的细节,也要了解相关人员的情况。机构是由人组成的,能够了解人们为什么参与其中,如果人们离开情报界,他们为什么离开,是什么原因促使他们这样做, 这对于了解我们可以如何改革大规模监控的现状,非常重要

资源:

使用数据库查找信息

在世界范围内的登记册和国际或国家数据库中都可以找到许多公开的信息。下一个例子将介绍如何利用这些数据库来查找现有的信息,如果您知道在哪里查找的话。

有组织犯罪和腐败行为报告项目 与 Investigative Dashboard

许多人一直怀疑存在一个单独的、平行空间的、享有特权的隐蔽系统,使不法分子不仅能从其不法行为中获益,而且还能将钱自由地转移到各地,或隐藏其资金,使其免受税收或公众的关注。

这一隐蔽系统一直被认为是一个无法逾越的网络,它由机构和人之间复杂的联系组成,利用法律空白和存在漏洞的规章制度 —— 如离岸公司注册、银行账户和匿名拥有的实体和公司的存在 —— 在这一系统中如鱼得水。

无论这些系统有多复杂,无论建立和维持何种程度的匿名性,金钱都会留下痕迹。 当资金在人与机构之间流动时,就会留下这些痕迹,由于这是在数字范围内发生的,因此有可能追溯到汇款人和收款人。

Investigative Dashboard 是 “有组织犯罪和腐败报告项目”( OCCRP )的一项举措,该项目是由一群调查员和记者组成的国际网络,其目的是使商业变得透明和公开,并揭露犯罪。 通过一系列的调查策略和程序,追踪金钱的流向,该调查项目能够展示有组织犯罪网络和腐败的独裁者如何以及在哪里隐藏他们的财富。 OCCRP的负责人 Paul Radu 说:

“有组织犯罪很有创造性,善于隐藏自己,有组织犯罪利用的是复杂的商业结构和公司结构,政府和公司之间也有交集。 有组织犯罪的世界和现实世界之间总是有一个界面:它是一种地下活动,但它必须有一个公共界面,因为它们涉及到具体的人。我们就在这个界面上采取行动 。我们认为有组织犯罪和腐败是一个有待解决的难题。”

📌 要解决这一难题,通常需要在数据库和记录中进行大量的挖掘和调查,以揭开层层叠叠的假公司,这些假公司是犯罪分子将其资产秘密私有化的幌子。

这些公司可以在全球多个地方注册和拥有,而要揭开谁是真正的受益人,就意味着要暴露每一个公司中的细节,就像俄罗斯套娃那样一层层揭开。大多数离岸避税地点 —— 开曼群岛、美国特拉华州、巴哈马、巴拿马、瑞士等 —— 都深受犯罪富豪的喜欢,因为设立公司很方便,不用提供太多书面材料;世界上很多银行都有KYC,即 “了解客户” 标准,这意味着必须收集客户的详细信息,但是离岸金融中心不会遵循这个标准。

所以,一个腐败的总裁可以把自己的脏钱放到以代理人的名义注册的假公司的账户中(有时这些人的身份是被盗用的,在他们不知情的情况下,作为幌子)。

瑞士和巴哈马等国家的许多银行都高度保密,不轻易透露信息。许多调查工作因难以获得信息而停滞不前,因此,调查记者必须非常机智和创造性地追踪线索。

在巴拿马文件曝光后,Investigative Dashboard 也对其曝光的公司注册数据库感到惊讶。巴拿马文件是一个非常大的惊喜,因为巴拿马以保密著称。然而,人们很快就发现,直接访问信息并不那么容易;你必须知道每个幌子公司的实际名称才能在数据库中搜索。

📌 OCCRP 与能够搜索数据库并重新编入索引的黑客合作,增加了一些功能 —— 例如按公司董事姓名搜索,使调查人员更容易找到信息。这就是活动家和组织能做的最及时的协助。

一些资源

  • 要查找全球公司的注册信息, 在这里 看到列表;
  • LittleSis 是一个免费的数据库,连接世界上最有权势的人员和组织之间的点,您能看到这些权势之间的关系;
  • OpenCorporates 是一个旨在收集世界上所有公司信息的数据库。该数据库目前提供了65个不同司法管辖区的5千万家公司的信息。在 OpenCorporates 上可以找到的信息包括公司的成立日期、注册地址和注册页面,以及董事和高级职员的名单;
  • TheyRule 是一个网站,提供美国最大的公司的交互式可视化图,帮助您了解每家公司中谁拥有权力,以及公司高层个人之间的关系。TheyRule 还提供了各种机构和基金会的相关数据,揭示了谁隐藏在美国的游说团体和智囊团背后;

使用白色空间创建一个 “地图”,您可以在其中放置您想获得信息的公司、机构或个人。探索左侧菜单中的不同选项,以显示公司、机构、董事会和人员之间的联系。您可以同时进行不同的可视化工作。

对于每一个 “项目”(个人、公司和机构),您可以通过点击 “研究” 来了解有哪些公开信息。TheyRule 与 LittleSis、 Corpwatch 和 Democracy Now! 等机构合作,提供深入而准确的数据。

【注: CorpWatch 是一个收集有关私营公司调查和研究的网站。

当您调查特定领域时,它很是有用的资源 —— 它发布跨多个领域的研究和文章 ,包括制药、食品和农业、化学、战争、和灾难牟利等。CorpWatch 不仅拥有自己的深入论文,而且它还汇总了来自互联网的优质调查作品。

CorpWatch 还提供了一份研究 指南 ,其中包含有关如何开始自己的公司调查项目的提示,以及有用的数据库列表。】

资源:

  • Treasure Islands :避税天堂和偷走世界的人
  • Andrew Feinstein 的 《The Shadow World》是一个非常优秀的调查成果,可以供您学习;在 Corruption Watch UK 看到更多 Andrew 的作品

在这里下载这本书

数据暗区:当您无法直接查看数据时

“……如果您对一家工业企业感兴趣,并且您认为那里正在进行环境犯罪,您基本无法直接敲开该工厂的大门走进去进行调查。但您可以做的是假设,如果他们处理的是有毒化学品,而且很有可能他们的安全记录很差,所以您可以做的是去当地的消防部门,询问是否有任何危险品反应的被记录事件。换句话说, 是否有任何实例可以证明您的假设。所以您应该开始建立证据 —— 围绕您正在寻找的东西,当您不能直接看它时 —— Trevor Paglen,对中情局酷刑调查的合作者之一

在许多有争议的全球问题方面  — — 如 国家支持的暴力、冲突、侵犯人权、环境退化和资源透明度等,开放数据资源可能没有什么可以直接提供的,特别是在全球一级的、或在政治转型期或受压制的地区。 在这些地方,要求地方当局或公司公布数据几乎是不可能的,甚至是非常危险的。然而,这并没有阻止活动家在 “数据暗区” 尝试这些方法,例如,他们不会等待信息发布,而是自己寻找信息,创造自己的资源或利用泄露的信息

本节将探讨直接记录和收集信息的技术实例。 反抗者经常知道围绕一个问题的数据是存在的,但不知道该如何收集。本节希望帮助这点

📌 “收集” 是指直接记录信息的方法,这对于直接统计某件事的项目来说是非常重要的,比如说侵犯人权行为。

以下是一些团体和个人的例子,在考虑寻找数据的创新方法时,他们可以作为有用的起点。

1、在其他地方寻找线索

许多不同的团体收集和公布关于同一事物的数据,但以不同的方式、不同的标准和技术进行。例如,政府以不同的方式发布公司信息:在一个全球化的世界里,这使得追踪公司和与之相关的个人的活动变得非常困难。解决这个问题的一个有趣的方法是看 OpenCorporates,它汇集了世界各地公司的注册和所有权数据。

OpenCorporates 做了大量的工作,使公司信息更容易获得,这意味着其他研究公司内幕的公民调查人员不必再重复这项工作。国际援助透明度倡议 (IATI) 也做了类似的工作,它制定了一个标准,各国政府和国际组织可以利用这个标准来公布有关发展援助支出的数据,使其能够进行汇总和比较。

您可以从首页查询 OpenCorporates,使用 API 或下载数据以将其包含到您的研究或网站中。

在 OpenCorporates 上可以找到的信息包括公司的成立日期,注册地址和注册页面,以及董事和管理人员列表。该网站还显示了企业集团,以帮助您查看哪些其他公司与您正在调查的公司相关。

近年来,在创造和销售可用于拦截电子邮件和网站使用数据、黑客攻击在线用户账户、以及通过互联网和手机跟踪任何目标人的行为和位置的技术方面,一个高度秘密的行业正在蓬勃发展。

世界各地的活动家和记者因当权者实施的数字监控而面临的风险也在增加,有些受害人亲历的灾难可以说是与这些间谍技术市场的增长同步进行的。

然而,调查取证是艰难的,长期以来,很难收集到系统性联系的证据,以帮助活动家向公司和政府施加压力,无法责令其在出口和使用这些技术时遵守人权标准。

总部设在英国的人权组织 “隐私国际”(PI)的研究人员设法参加了一些监控行业的会议。通过收集许多在ISS世界会议上免费分发的产品营销材料,他们能够确定哪些公司在提供哪些服务。📌 比如这个报告,就是通过参加这类监视技术展示会而获得的《 浮空器、生物识别、射频、无人机 ……唐宁街聚集大规模监视行业,其关键技术中国几乎全有 》。

隐私国际组织和一个由活动家和记者团体组成的联合会将这些信息作为 “ 间谍档案 ” 发布。

通过进一步的数据收集活动,PI 能够获得参加相同ISS会议的公司和政府机构的名单。他们以 “监视名人录” 的形式公布了这些名单,提供了100多个国家对监视技术表现出积极兴趣的公共机构的线索。

这些数据已经被接入到其他公共数据资源和服务中,关于公共支出和公司信息。通过在一个开放的平台上发布它们,PI 提出了这个问题,并让其他人可以进行进一步的分析和调查。其他调查人员有机会填补现有数据集的空白,帮助每一位对监视技术内幕感兴趣的公民调查人员丰富资料。

【注:ISS是情报支援系统( Intelligence Support Systems)他们举办的会议是以执法的角度, 让与会者了解最新的维稳技术产品、服务与解决方案的讯息,这些技术旨在帮助警察和间谍进行情报搜集、监听/监视、资料搜集等,借此累积权力

2、让拒绝成为您的证明

Mari Bastashevski 是一名艺术家、研究员、作家和调查员。 她专注于调查系统性腐败和国际冲突牟取暴利的问题,以及围绕这些问题的信息真空 。Bastashevski 讨论了在她的作品中使用摄影和拒绝的过程,方法是让被拍摄对象定义自己的秘密范围,无论是合法建立的还是虚构的:

“通常情况下,我要么事先通过电子邮件申请、要么在与公司或政府机构面谈时请求允许拍照。绝大多数时候这样的请求就会被拒绝。 这是一个相当标准的请求-拒绝模式 ,我成为请求者,而他们有权力扮演拒绝者。拒绝本身的形式是非常有趣的,从完全的沉默到公关主管非常勤奋地撰写的电子邮件不等。后者在西欧公司尤其如此。

接下来我尝试做的是问他们,拍照到底在哪里被拒绝,拒绝的边界在哪里结束,如何界定拒绝的范围。 这是一个破坏性的因素,它迫使请求者和拒绝者离开既定的位置。它也允许 “被拍摄者” 划定他们自己的保密边界,无论是法律规定的还是他们想象出来的。 作品的这个元素在很大程度上是一种表演。其中,摄影师和被拍摄者都会跌跌撞撞,显得有些惊讶。

这种特殊的方式是受到我在2011年遇到瑞士国防合同经纪人 BT International 时的启发。

当时该公司的办公地点设在了一个乡村田园风光环绕的地方,我决定还是直接按门铃。负责人一个人在那里,他让我脱了鞋,请我进去喝茶。我们聊了一会儿。他回答了我的一些问题,他没有回答其他问题就直接进入了传统的意识形态讨论, “好吧,就算我们不卖这东西,也有别人会卖”,以及所有那些你反复听到过的狡辩。

与此同时,我可以看到奶牛在吃草,就在窗外,并记住这个非常小的公司如何负责在世界各地运转了很多非常严肃的交易。而当我问他是否可以拍照时,他当然说 “不可以”,又马上解释说,我只能在房子周边的法定距离外拍照”,就是这样。所以我就穿上鞋子,把门外的牛拍了下来。”

📌 是的,他们的拒绝正是证明您的调查有重要意义的举动。您需要抓住这点。

这就是她拍摄的房子外面那只牛 Riedbach, Switzerland. View from BT International head office, from the series State Business (Chapter I)

3、从意想不到的来源进行推断

开放技术和科学公共实验室 (Public Lab) 开发和分享了一些开源的可以自己动手的工具,供社区收集有关环境污染和破坏的数据。在美国的布鲁克林,公共实验室及其合作者利用气球测绘来确定 Gowanus 运河的污染区。

虽然 Gowanus运河被广泛认为需要清理,并有国家资金进行清理,但是 气球测绘可以让当地社区监测这一过程,并收集当局想要隐瞒的数据。

在捷克共和国,该组织支持的活动团体监测苏马瓦国家公园的非法伐木行为。他们开发的最基本的气球测绘工具只需要一台相机、一个瓶子、气球和橡皮筋,就可以完成。

航拍通常只限于拥有卫星发射技术的政府,但这种 “基层测绘” 工具允许社区对如何定义和拥有自己的领土施加影响 。结合更先进的技术,如近红外相机和热成像,这些简单的工具可以作为强大的数据收集形式,用于调查。

另一个从意料之外的来源进行推断的例子是 James Bridle 的 “ Seamless Transitions’ ” 项目。他解释了如何找到视觉效果来描述移民被驱逐出境的过程,这个过程发生在深夜,通常无法被记录。然而,通过使用一系列技术,如第一手资料、寻找飞机的网站,以及与建筑工作室合作将这些隐藏的空间视觉化,他能够绘制出一个大致的过程轮廓:

“我最关注的一件事,也是我的很多作品中都会出现的,就是 让不可见的东西变得可见。它可以以多种方式发生,其中一个最简单的方式就是为以前不存在影像的地方提供图像。

这是一个正在发生的事,但你不会在报纸上看到它的照片,因为 它发生在这种被保密的范围内 。它发生在私人空间。那些人做的最主要的事之一就是把事情私有化,所以他们不必提供图片。

我想填补这些图像的空白,并有效地使用与我在调查中使用的相同的技术思维方式来进行图像制作。所以我与那些倾向于做建筑可视化的人合作,他们经常与建筑师合作为大型建筑和漂亮的豪华公寓制作计划图,他们非常擅长渲染和制作原始的、想象中的未被建造空间的图像。

我们做了调查工作,以获得平面图和规划文件,以及目击者的描述和这些地方在不同时期的少量照片,以便建立完整的3D模型,这样我们就可以基本上对它们进行构建了。 我们这样做不仅是为了 ‘参观’ 斯坦斯特德机场的这个外人进不去的私人航站楼,也是为了看到拘留中心内部,许多人被关押在那里,这也是一种私人经营的空间。”

📌 我们认为这是一项很有意义的工作,将那些秘密的空间内部结构展示出来 —— 每一种秘密都是在维护某种强大的权力,当它被公之于众时,就是权力开始破碎的时候。 还记得开源情报绘制新疆拘留营的调查吗?在这里回顾《 开源调查图解新疆”再教育”营 》,这是一个很好的演示。

再推荐一个最近的调查,forensic-architecture 对贝鲁特爆炸案的调查。 2020年8月4日下午6:00后不久,贝鲁特港口发生爆炸事故,导致 200多人死亡,6,500多人受伤,并摧毁了该市的大部分地区。爆炸事件后该调查组织凭借开源情报,绘制出了爆炸现场的图景,以协助查找事故成因,见《 THE BEIRUT PORT EXPLOSION 》。

对驱逐中心的3D建模,来自 James Bridle 的调查项目

4、开展新形式的测量

在 Jonathan Gray 于2015年7月撰写的题为 “ 数据革命的民主化 ” 的讨论文件中,他写道,最近的项目通过计算未被计算的内容,采取了新的衡量形式”。近期有多个数据新闻项目出现,都 突出了现实与官方统计之间的差距

移民档案 ” 是一个开放的数据库,其中包含了自2000年以来超过 29000 名在前往欧洲的途中死亡的人的信息,这些信息是从公开的来源中整理出来的。

它是由一个记者网络( J++ 协调)创建的,他们担心欧洲机构没有系统地收集这些数据。同样,《卫报》的 “ The Counted ” 项目记录了 被美国警方拘留期间人们的死亡信息,明确地回应了这一主题缺乏官方数据收集的问题

📌 这两个项目的特点是,由记者和数据专家组成的团队,从很多渠道收集分散的信息,对这些信息进行关联和核实,然后作为新的证据体系发布。这套新的证据不仅暴露了死亡人数如此之多,而且,还凸显了缺乏一致的跨国监测系统,以及现有机构及其方法完全缺乏问责制。

另一个从多种来源收集分散信息的例子是荷兰人 Thomas Van Linge,他是一名19岁的荷兰学生,随着伊拉克、利比亚和叙利亚领土控制权的变化,他绘制出这些地图,并将这些地图发布到他的 Twitter 账户上。

这些地图随后被他的数万名追随者分享,并经常被各大新闻机构引用,作为谁控制这些国家哪些地区的准确描述 。📌 他通常通过从 Twitter、Facebook 和YouTube等社交媒体平台上收集开源情报资料,以及与该地区的个人联系人,在谷歌地球上创建这些地图。

他估计, 他在绘制叙利亚地图时使用了1100多个来源 ,以核实领土控制的说法。

2015年6月,他在接受《 新闻周刊 》采访时说:

“我主要是想让人们了解情况,向人们展示该国的叛乱动态。我也想告知那些想去该地区的记者,哪些区域肯定是禁区,哪些区域是最危险的,也想通过时间来展示战略发展。”

他接着描述了他创建这些地图的动机:

“我当时并没有真正考虑过这个问题, 但我对其他完全没有区分叛乱分子和ISIS的占领区的地图感到恼火, 这些地区在当时仍然交织在一起

📌 简单说就是,如果您对现状的混乱不满意,那就想办法改变这点 —— 这就是公民的力量,直接行动。

上述这些方法是调查人员正在使用的许多方法中的一部分,以寻找或创建不对外的数据。在下一部分内容中,我们将探讨收集这些数据的技术和分析数据的方法。⚪️

—— 未完待续 ——


文章版权归原作者所有。
二维码分享本站