如何获取、挖掘、分析各种来源的调查数据完整指南:解码秘密(3)- 理解数据和可视化 - iYouPort

2020-12-08 原文 #iYouPort 的其它文章

如何获取、挖掘、分析各种来源的调查数据完整指南:解码秘密(3)- 理解数据和可视化

  • 挖掘和收集数据是为了理解,对于活动家来说是帮助您的受众理解您的运动的一种很有效的方法,但您必须注意一些关键问题 ……

欢迎回来!

如果您错过了前面的内容,可以在这里回顾:

关于这份指南:来自8个国家的11人参与了这份指南的编写工作;在38个案例研究中介绍了来自20个国家的情况;配有76张图片;推荐了64种工具和89种资源。

本指南适合所有国家的公民调查人员、非政府组织、独立权利组织、反抗社区,即 所有支持 直接行动 的人和群体。

同样: 建议您按顺序阅读本手册

本集将继续前文内容,开始研究数据的处理方法和技术资源。

📌 今天的内容中涉及到的资源您可以在这里下载 https://www.patreon.com/posts/jie-ma-mi-mi-di-44147634

分析

这一集中将重点介绍如何准备好您发现和收集的数据,以便在您的调查中使用。我们将介绍围绕数据的结构化、分类和标准化的技术,并检查您可能已经需要脱离电子表格而转向数据库的五个迹象。之后就可以进入如何连接数据点和用数据讲故事的阶段了。

活动家、调查人员、记者和艺术家需要自己去寻找数据,并把这些点连在一起:只有很少的情况下,完整的画面才会呈现出来。在最近对艺术家、研究人士、作家和调查者 Mari Bastashevski 的采访中,她说到:

“无论我用数据做什么,我都会把它带回模拟世界,然后再把模拟数据重新放到网上。有两类主要的文件对我的工作过程至关重要:有用的(脚注)和无用的(对象)。前者为叙事提供信息和地图,后者是原材料,是叙事的肥料。”

对数据进行结构化,分类和标准化

调查人员需要抓住所提供的机会,而且往往不得不在资源非常有限的情况下工作。为了存储和理解收集的数据,公民调查人员经常使用廉价的、无处不在的软件,如大多数计算机上预装的电子表格。

为监测具体活动或记录事件而收集数据,起初似乎令人激动,特别是如果 您对这些信息如何有助于辩论有一个明确的愿景 。然而,📌 为了使数据有用,必须对数据进行良好的组织和设计,以便能够以有意义的方式对其进行整合、分析和展示。

您将需要了解一些起初看起来很有挑战性的事:如何使信息标准化,如何输入信息以便日后整理,以及如何在组织中使用数据。我们将在下面的章节中讨论这些方面。

数据的输入必须一致。如果不一致,那么就很难准确地进行搜索、统计、排序和过滤。

如上。这里的问题很容易发现,但在收集数据时,每天都会以这样或那样的形式重现这种错误。减少这些错误的方法之一是 使数据输入方式标准化 。这意味着要对如何一致地表示数据进行选择。

想一想您可以如何描述一个事物的所有方面;这是一个您可以很自然地做到的过程,而且有许多不同的、同样可信和准确的方法来做到这点。

例如:

  1. 日期和时间 :1976年11月1日 星期四,November 1976, November 1st 1976, 19761101, 11/01/1976,都是表示同一日期的方法。
  2. 姓名 :人和事物的命名是非常复杂的,在不同的地区和文化中都有不同的命名方式。您是写 “联合国” 还是 “UN”?是写全名还是只写姓氏?对于外国人来说,中间名是否写出完整的单词?(Assange 的全名是 Julian Paul Assange,或者 Julian P. Assange,或者 Julian Assange 这是同一个人)
  3. 地点 :一个事件的地点是通常要被记录的数据。但在描述地理数据时,您需要多具体?您可以用经纬度来精确描述;也可以用一般的描述,比如 一个国家的行政地理(镇、市、区)、选举地理(选区)或业务地理,比如警察局所覆盖的区域。

📌 数据标准化的关键挑战是做出选择 —— 下定一个标准,然后坚持下去。这将节省大量的时间,避免挫折感。

下一个挑战是 明确在实践中如何将标准应用于您所收集的所有数据 。例如:信息来源告诉您,有600人参加了一次抗议活动,您会想在电子表格中建立一个条目。这里有 “小型”、“中型” 和 “大型” 的分类。您如何决定哪个词最能描述这场抗议的规模?

📌 您需要做到:当您任何时候查看电子表格时,您都可以知道,每次看到被描述为 “小” 的抗议活动都意味着同样的事。

设计一套规则,让每个处理数据的人都知道这一点:

  • “小” = 1~99 名参与者
  • “中” = 100~499 名参与者
  • “大” = 500~999 名参与者

您要通知合作者:每个输入数据的人每次都需要遵循同样的规则。

对于某些类型的数据,涉及到对某件事的评估和判断,挑战就比较严峻了。对于更复杂的问题,它们不能分解为一组数字,您需要找到 “篮子”,把各种不同类型的事实信息装进去。您需要确保简化它们以后对您仍然有用。

一个人权组织的实地人权监督员采访了一名遭受警察严重身体虐待的受害者。您的表格中有 “酷刑”、“不人道的和有辱人格的待遇” 和 “严重的身体伤害” 等类别。哪个词最能说明问题?

在这种情况下, 这些术语在国际和国内法律中都具有具体的法律含义 。为了提高术语应用的一致性,您可以制定一个指导表,解释每个术语、每种类型的情况、区分所需的信息和证据,然后提供例子。

📌 如果您想将您的数据与其他数据进行比较,请考虑他们是否使用了 相同类型的数据 ,以及他们是否对其数据应用了 相同的规则 。这一点将在后面具体介绍。这是一个严重的问题:由于不同国家的组织收集数据的方式不同,当需要跨区域和跨国投诉时(比如到联合国投诉、或者国际上知名的人权组织 — 他们并不在您的国家),项目可能会失败,导致需要从头开始。

根据外部资源对您的数据进行标准化也很有用。例如,如果您使用地理信息,如地名,它们可以被谷歌地图识别(使用一种称为地理编码的自动技术),这就简化了在该服务中创建地图的过程。如果太晚决定要制作谷歌地图,然后又要回溯所有数据,重新输入谷歌地图能够识别的地名,那可能会让您焦头烂额的。

另一种形式的标准化与您记录数据的结构有关。例如,在输入数据时,一个好的经验法则是将一个数据放在一个字段或单元格中。然后,您的电子表格可以为您轻松地进行分类和过滤。下面是一些例子:

案例 1:一个人权组织记录了柬埔寨金边警察对人们进行骚扰的情况

有问题的数据输入是这样的:

更好的数据输入是这样的:

案例 2:一个研究组织记录了监狱中被拘留者的性别

有问题的数据输入是这样的:

更好的数据输入是这样的:

在案例 2 中的问题不能通过增加另一列数据来解决。最好的办法是创建一个新的独特类别,称为 “DAMF”,当一个设施里同时有成年男性和成年女性囚犯时使用它。

数据的结构 也会影响您统计数据中不同事物的能力。电子表格用户经常遇到的一个问题是,他们围绕了错误的东西来构建数据。比如说:

如上,这里每个单元格中都有不止一种数据。这也许可以让您统计出有多少顾客,但却很难知道您卖出了多少份薯条,或者下了多少订单。这里只有两个条目,但如果每周都有成千上万的条目呢?

一个更好的组织方式是:

📌 用极客的语言来说,这类问题都是关于一个叫做 规范化 的逻辑概念。它们非常常见,反映了试图将相当复杂的信息压制在一张信息表格中并保持其可用性的困难。

如果有很大的 “规范化” 问题,可能是时候把数据转移到另一种工具上了,比如数据库。这将使事情变得更容易。

最初,这可能意味着更多的工作,而且可读性较差,但是它将为您以后进行适当的分析提供很大的方便。还是上面的案例,在第一种录入方法中,您仍然无法回答一些重要的问题,比如总体的订单数量。

在开始之前您需要想清楚信息的结构和标准,对以后的工作会有很大的好处。通过标准化输入数据的方式,您更有机会发现哪里有联系、哪里存在关系和模式。 以这种方式构建数据,可以确保不会忽略有用的分析机会

更多资源:

  • Knight 数字媒体中心有关如何使用电子表格的出色 指南和技巧
  • HURIDOCS events standard formats : a tool for documenting human rights violations 关于如何构建有关侵犯人权行为的信息的最全面的说明,以及对信息学概念和数据系统的良好总体概述。(可下载)
  • Follow The Money: A digital Guide to Track Corruption 这是对腐败调查的一个详细指南。(可下载)
  • 同样来自 Knight Digital Media Center 的 “清理” 数据教程,涉及查找和修复数据输入、标准化和数据结构方面的问题。

共同努力并遵守标准和结构

在一个团队中管理数据,可以提高您承担一个项目的能力,否则这个项目可能会被证明过于庞大或过于耗时。它还可以通过将数据交到更多的人手中来增加数据的价值。

📌 然而,小组工作也会增加工作的复杂性,并可能增加数据错误。它还会对信息的隐私性和保密性产生一些影响,需要您考虑谁可以访问数据以及如何安全地传输文件。

以下是一些关于可能发生错误的提示,以及一些检测和减轻错误的想法。

跟踪团队中的数据输入错误

每个人都会犯错 —— 即使是美国宇航局,也有数百种可能性犯错并将错误引入电子表格。数据管理可能是平凡而重复的工作。 在电子表格上输入或使用数据的人越多,引入错误的可能性就越大。您可以创建简单的流程,以识别数据输入中的基本错误。

下面是一些例子:

  • 如果一个字段中包含日期,请对其 进行排序 ,以显示最早的日期,这样您就可以检查是否有日期写错(例如,2011年而不是201年)。
  • 如果您在单元格中使用了一组标准术语,如国家名称,那么处理数据的人员可能无法一致地输入这些术语。例如,用户可能会犯输入错误,输入 “堪倍拉” 而不是 “堪培拉”。大多数电子表格通过列出 任何一列中包含的唯一值 来显示这些错误:它将对这两个错误进行不同的处理,这样您就可以看到它。
  • 如果每一行数据都应该有一条信息在里面,那么一个空单元格可能表明有人忘了输入一条数据。您可以要求电子表格计算一行中的任何空单元格,如果有,则用 “红色” 突出显示 该行。

超越电子表格

大量的活动家使用电子表格来组织数据是完全合理的。但是,即使当使用电子表格所面临的问题变得更加明显时,考虑改用数据库的人却少得可怜。

下面5个迹象表明,您可能已经需要超越电子表格了。

  1. 您开始对电子表格中的东西进行颜色编码,并创造了一些小的 “技巧”(比如在一行数据中添加 “AAA” 或 “!!!!”,以确保它出现在顶部)才能方便查找数据。
  2. 您经常不停地滚动查找和编辑信息,甚至您直接买了一个更大的电脑显示器,以便可以在屏幕上看到更多的数据。
  3. 不同的人需要将数据输入到电子表格中,因此您需要花时间通过电子邮件将数据发送出去,并将数据复制和粘贴到一个 “主” 电子表格中。
  4. 您经常需要重新格式化以适应不同工具的需求,以制作图表、地图或图形。
  5. 您开始创建多个电子表格,以统计其他电子表格中的数据。

如果您正在进行上述任何一项工作,那么是时候开始考虑使用另一种类型的工具了。

电子表格是一种很好的 “自己动手” 的数据工具,广泛用于记录、分析和创建简单的数据可视化,它的格式和重新排列数据的能力意味着它们在某种程度上也适合其他用途。几乎每个会使用电脑的人都可以用简单直观的界面 “画草图”,将列和行拼凑在一起,创建一个自己想要记录数据的某个问题或事物的基本模型。电子表格不需要太多的技术知识就能上手,而且大多数电脑上都有安装,所以您可以立刻使用。

使用电子表格的一大吸引力  — — 或许同时也是一个陷阱  — — 是它可以被制作成书面文件的样子。电子表格可以有一个开头、一个结尾、一个标题、一些作者信息和出版日期;它可以像叙事一样构建,包含数字和文本的混合,具有地点、时间、主角、位置、成本、后果和结果等元素。以这种方式构建数据 —— 通过直观的、叙述性的和可视化的逻辑 —— 对于简单的项目来说 可以很好地发挥作用,但是,如果您的内容量不断增长、或您想以不同的方式使用数据,问题很快就会出现。

从这个意义上说,电子表格是一种折中的工具:存储信息的方法与查看和处理这些信息的手段之间的折中。在某些时候,这两种需求无法调和,其中一种就会妨碍另一种。在电子表格中让数据变得清晰可辨,意味着让数据在分析上的用处大打折扣;反之,则会让数据基本无法读取,因此,用处也大打折扣。

然而, 数据库却可以将两个需求分开:数据的存储方式对如何显示数据的影响要小得多。 事实上,数据的存储方式往往对用户完全隐藏,可以实现抽象的、复杂的数据存储方式,让用户对数据拥有更多的权力。

数据库的一个关键好处是能够具有多张数据表的功能,以及将它们拼接在一起以检索特定问题答案的技术。

下面是数据在数据库里而不是电子表格中的外观:

顾客 ——

菜品 ——

我们还想知道谁下了订单:

以及在哪里下单:

在幕后,您可以告诉数据库这些种类的信息是如何关联的。然后,您可以要求它创建另一张表格,将 “顾客”、“菜品”、“服务员” 和 “摊位” 的数据结合起来,此外,还可以了解订单的其他信息:

在这个例子中,仍然只有两个顾客,坐在两张不同的桌子上,点了3个不同的菜。想象一下,如果每天有上百个顾客,从一个超大菜单上点菜,那么要想管理这些数据。您就需要数据库来做这件事了,它有更好的存储和检索数据的能力。

使用一种叫做结构化查询语言(SQL)的东西,您可以向数据库提问。例如,可以要求它告诉您:

  • 一天、一周或一个月内有多少订单?
  • 每道菜卖出了多少份,在一天中的哪些时段?
  • 每个饭局的平均规模

数据库允许您灵活地使用数据,这在电子表格中是很难实现的。这种灵活性为您和您的受众创造了机会,对于活动家来说,数据库能够以服务于您的行动目标的方式使用、展示、发布和访问数据。

将工作从电子表格转移到数据库中,在很多层面上都是一个挑战:

  • 数据库的世界充满了不同的技术选择:数据库平台、编程语言、接口类型等等,对于新手来说,这些都有点吓人。
  • 您也许不太可能自己动手。您需要与信息架构师、程序员、交互设计师等技术人员合作。 您需要的是知道该相信谁,弄错了可能会付出代价
  • 您需要确保数据库能解决您工作中的正确问题,并且您有资源来持续使用它。
  • 但也许最重要的是,从电子表格到数据库的转变代表了一个 巨大的态度转变 ,不再满足于眼前的事,而是挑战既定的工作方式。对于将数据作为工作核心的活动家和公民调查人员来说,问题是:工具的局限性在多大程度上浪费了您的时间、对数据的利用不足、或阻碍了您的工作?

用数据讲述故事

将叙述与事实结合起来,通过数据来追溯故事情节是很困难的,下面是《Visualising Information for Advocacy》一书的节选(可下载),该书探讨了如何用数据讲故事。

许多倡导者对用数据讲故事的想法感到紧张。这有悖于经验性工作的原则,📌 您必须小心, 不要落入将事实塞进预先定义的叙事中的陷阱

从数据中创造一场运动的故事是一种谨慎的平衡,需要 同时在四个方面不断努力:

  1. 重点 是什么?您想让受众理解什么,为什么?
  2. 从数据中向外延伸 :要清楚数据告诉您什么。考虑数据是否需要简化、背景化或用其他数据来充实您的观点。
  3. 涉及信息 :您将如何在粗略的数据中汇集您的故事?如何在不误导或过度概括的情况下,用简洁而有说服力的方式来构思?
  4. 寻找视觉故事 :可以使用哪些视觉设备以引人入胜的方式来呈现信息?视觉设计如何帮助组织数据并赋予其意义?

无论您是直接用数据讲故事,还是只想了解您所拥有的数据,数据可视化工具都是非常有用的。当您在处理大量信息时,使用数据可视化工具可以帮助您找到并理解数据中的故事。

Eduardo Salcedo-Albaran 和 Luis Jorge Garay-Salamanca 在分析围绕 “La Familia Michoacana” 这个位于墨西哥的贩毒集团的社会网络时,使用了可视化工具来绘制这些网络中的节点及其联系。

这些数据是基于证人的陈述。通过检查司法档案,该团队能够提取出个人的细节和他们的关系,这使他们能够追踪与 La Familia Michoacana 互动的广泛社会网络。

由此产生的球形网络图显示了 “毒贩” 之间的关系(主要是更大、更核心的节点),以及这些核心节点 如何与公务员和政客联系起来

该可视化详细列出了284名特工的姓名,并描述了880种社会关系:

Network graph of ‘La Familia Michoacana’ by Eduardo Salcedo-Albaran

📌 其结果是清晰呈现了高度复杂的贿赂和胁迫行为、以及使情报分析得以运作的复杂概述。在这个例子中,视觉表现是利用数据讲述故事的有效方式。

网络

如果一切都是网络,那么什么都不是网络

您拿出一张纸,在上面画上几个点(称它们为节点),用线把它们连接起来,(称它们为边),这样,您就有了一个网络。对不对?嗯,是的。但也不是。我的意思是,这不是整个故事。

多年前在为GPS导航公司设计地图时,面临着一个复杂的挑战。从本质上来说,街道地图是一个网络,每个路口都是一个节点,而道路则是边。所以,就像刚才画的网络一样,地图很好地将节点和边的地理布局可视化了,但这还不够。

虽然App的主要目的是告诉用户要去哪里,但它也试图将您周围的交通情况可视化,以便更好地告知您可以避开的交通堵塞,并为您将不得不开车通过的交通堵塞做好准备。一旦开始询问每个路口之间的道路上发生了什么 —— 该路段的具体交通情况(即 流量),事情就会开始变得复杂。

交通是一种非常动态的流动,它可以很轻,可以很慢,可以很重,也可以完全停滞。有的道路是双向的,而有的道路则只向一个方向流动。您必须指出哪些方向是可以行驶的,同时也要将这些方向上行驶的车流可视化。但是,还有更多。如果道路有多条车道,而交通堵塞只针对那些左转的车辆,而您想右转,您的车道是畅通的呢?或者,如果您行驶在一条很长的道路上,而交通减速的只是有限的一段呢?

这就更棘手了。某年的地球日,纽约市交通局长决定关闭42街,这是连接中央火车站和时代广场的一条主要道路。“许多人预测这将是末日”,专员 Lucius J. Riccio 告诉纽约时报说。但出乎意料的是,关闭这条街不仅没有导致交通不畅,实际上还改善了交通状况。

纽约市的司机们通常会涌向42街,这条最宽的街道,因此导致所有人的交通速度变慢,而周围的小街道却基本没有人。把42街的方案取消后,交通流量实际上得到了改善。这个令人惊讶的结果可以归结为网络理论所说的 Braess’s Paradox —— 在网络中增加 *边* 并不一定会带来更好的流量,有时甚至可能导致拥堵。

尤其是在最近的几十年中,人们已经开始从网络的角度思考生活中越来越多的方面。

一切都在连通

1964年,兰德公司的科学家 Paul Baran 画了这张著名的图,图中显示了3种可能的网络拓扑结构,以及它们在核攻击情况下的脆弱程度。

分布式网络被选为军事通信网络,为我们今天使用的互联网的核心 —— TCP/IP协议奠定了基础。最近,生物技术、神经科学和机器学习的先进研究普及了对神经网络的实验研究,如人工智能的前沿和科幻小说般的后人类主义愿景。

把一切都看成是相互关联的,这的确很有吸引力;它满足了人们把一切都合理化为因果关系的基本需求。提供了无数反馈循环的力学原理,如果能把它们全部数出来,就能让您发现 “全貌”。网络图的美学也有极其奇妙的地方,它的体积,它的物理学,它的出现,它的力量。它就像渲染了一个隐藏的真相突然出现在人们眼前,并带人们透过它看到一切想看到的幕后。

而事实上,只要您愿意,就几乎可以用网络来思考一切。每一个地方、机构、存在、物体、词语、概念、细胞或原子,都可以是一个节点,只要找到任何可能的方法将它们与其他几个节点连接起来,您就有了一个网络。

网络是一个非常灵活和抽象的模型,甚至可以让您叠加其他网络,创建超级网络,然后在上面运行网络数学,进一步分析您刚刚发现的复杂新兴系统的内部运作。

不需要太多的节点和边,一个网络就会变得非常复杂,您就会彻底陷入它的 “网” 中。在数据可视化的科学和设计中,有一个完整的子类是专门研究网络图画的,试图提出新的布局,来解开网络的束缚,扩展认知。有树状布局和力导布局,有弧形图、径向布局和地球仪布局 …… 都试图更好地理解和区分二维平面上的节点和边。

但是, 虽然这些布局可能有助于传达网络的结构,但它们几乎没有暴露出流程,更重要的是,没有暴露出管理它的协议 。Alex Galloway 和 Eugene Thacker 将协议定义为管理网络内关系的所有常规规则和标准。他们认为,“如果说网络是连接人们的结构,那么协议就是确保连接实际运作的规则”。

如果您不能看到网络的流程,也不能理解网络协议中所蕴含的规则,确实可以让自己想象连接的无限可能。这也是这些网络图如此鼓舞人心的一部分原因,让我们中的一些人对分布式网络感到兴奋,并将其想象成人民对国家和公司集中权力的抵抗。

但这也是让网络如此误导人的原因。还说那个地球日,纽约的司机们头脑中对中城区的交通流有一个简单化的模型,这个模型期望最宽敞的道路是最快的。今天的GPS导航系统会实现一种协议,帮助这些司机规避这种人为错误。但如果您受制于一个不透明的协议规则,就会产生一个问题,谁在开车?

网络调查模型

They Rule Josh On

今天,随着网络成为权力和控制的主要模式,复杂网络的可视化具有重要的政治作用。

2001年,承担这一角色的先锋网站之一是 Josh On 的 TheyRule.net,这是一个网络图制作工具,它创建了美国最有权势的公司董事会及其成员的图表,试图找出权力梯队中可能的利益冲突。

TheyRule 后来由 LittleSis 和其他调查行动主义工具如 OCCRP 的 VIS (Visual Investigative Scenarios) 继续使用,它沿用了由执法和调查性新闻学发展起来的调查网络模型,并被《火线》等警匪剧所推广。

根据网络化调查模式,通过收集和连接缺失的环节,可以解决信息难题。

📌 数据成为货币,而网络则是架构数据的模型。您画出的网络越大,在网络中游走的可能性就越大。而当它的增长速度超过您的理解能力时,网络分析算法就会介入,取代人类调查者。

因此,每一个可以捕捉到的位都会被捕捉到,希望它可以帮助解开下面的网络结构。

网络可视化的新政治角色

网络已经成为一种管理意识形态、具有情报和控制的无限可能。正如您所看到的,画点和线很容易,但结果很快就很难理解了。剩下的只是抱负中的网络意识形态,在这种意识形态中,只要您不指望人们能够理解,一切都有联系,没有什么是不可能的。网络并不邪恶,只是在很大程度上被误解了。

但是该怎么做呢?

首先,您应该将核心网络术语扩展到节点和边之外,也包括流和协议。但是,流和协议可以被可视化吗?是的,它们可以,下面是几个例子。

数量:并非所有流都相等

几十年来对视觉感知的研究已经证明,位置是我们可以用来绘制任何类型的数据的最易辨认的视觉属性,因此大多数网络布局是通过节点的形成和它所代表的数据来区分的。只要流向不是问题,网络图就可以证明相当有用。

例如,社交媒体分析经常使用网络图来映射 Twitter 上的人际关系互动或信息的病毒式传播。在这些情况下,信息的实际内容(流)对于它们如何传播的问题来说只是次要的,而且 Twitter 的网络协议已经足够简化和熟悉,不需要任何额外的视觉编码。

Credit: Gilad Lotan, Betaworks

大多数网络布局侧重于节点的形成、聚类和分类,而一些网络则试图区分边并将其动态可视化。 调查记者和 “跟踪金钱流动” 的公民社会组织经常使用网络来绘图,不仅仅是一般的联系,而是具体地表示资金流动的数量和方向性。 只要流是标准化的、可比较的(就像资金流那样),对数量和方向性进行编码,仔细处理,就可以绘制出一个相当有洞察力的网络图。

Follow The Money By Andrew Ross Sorkin, The New York Times, 2008

如上述,在 Waze 做的交通地图也属于这一类。在设计地图的时候,试图巧妙地表明在繁忙的城市地区行驶与选择一条风景更优美的路线以穿过公园和经过湖泊之间的区别,但这并不是网络能够轻易可视化的。也无法简单地想象出一条路与另一条路相比有多危险,或者走这条路或下一条路有多省油。

当流本身不可比拟时,问题就变得更大了,因为当收集到的关系无法呈现出聚合的洞察力时,大局就失去了意义。

当 Google 在他们众多失败的社交网络尝试中决定将用户所有的电子邮件联系人列表变成朋友时,这是由于他们对用户社交图谱的简单化解释。您的同学、您的姐姐、您的老板、您的学生、您的房东、您的客户、您的情人、和一些销售人员,可能都是您的社交图谱中的节点,但 您与他们之间的通信流是不可比拟的,因此在总体上对您毫无意义。

对于大多数试图将社交图可视化的尝试都是如此,它永远不能为您提供更多的服务,而只是为了满足了一种基本的自恋快乐,即 看到自己的形象被描绘在自己的社交生活的中心。

网络需要叙述

当代科技总是作为思维的流行隐喻。无论是蒸汽机,还是计算机,人类都喜欢把自己的大脑看作是机器,把思维看作是一个复杂的技术过程。随着神经网络成为研究和模拟逻辑和数据处理的领先模型,网络正在成为思维本身的视觉隐喻。

但当您在视觉上审视 “思维导图”(代表思维的网络图)时,您的眼睛会游移不定,试图抓住一个节点,从复杂的意识流出发,沿着这个节点走下去。阅读是一个线性的过程,而从非线性的思维集合视图中能读到的东西并不多。

思维导图常常作为记事工具,但其最终的结果并不像记录过程本身那样有价值。一张思维导图如果能将其编写过程可视化,那么在事后分享或检查时,其可读性和实用性会大大提高。

人们体验生活是一种叙事,而不是地图,当然也不是网络。网络图很少会表示静态的关系。 叙述网络中节点的流动是一种有用的研究方式,无论是作为其动态的例子,还是作为突出具体见解的方式。

网络是如何构建的?应该如何解读它?如果通过节点和边来记录叙事,有助于解释流程甚至协议,那么它可能成为一个重要的特征。

然而您可能会发现,并不是每个网络都有故事可讲,或者说并不是每个故事都值得讲。就这一点而言,并不是每个网络都可能值得被构建。

您需要始终以您的调查目标为终极目标。

方向性:隐式协议

如果说生活和阅读的体验是线性的,那么方向就意味着一种叙事和一种协议。例如,树形布局代表了具有明确层次结构的网络。节点只能在一个方向上分叉,它们的流动符合其结构中的协议。比如家族属性图直观地表示了家谱的流动,并保持了其协议。

将时间映射到网络上,也可以起到提示阅读方向、明确流程的作用,有时还能让人们了解协议。例如,软件项目网络化协作的分布式版本控制模式(如 Git 和 Github 所使用的模式)在很大程度上是以时间为组织原则的。从这个意义上说,Github 的网络图不仅模拟了代码的开发,而且模拟了网络的协作动态。而且像文本、像代码、像时间那样,可以从一边到另一边依次阅读。

Screenshot of the oBudget.org project’s Github collaboration network

可视化算法:人性化的行动呼吁

随着数据越来越 “大”,计算机算法越来越复杂、并且高度专有和不透明,更多的控制权被转移到幕后。数据通过计算机网络按照 不透明的协议 进行处理,最终呈现给您的通常只是冰山一角。 在这些庞大的基于规则的自动化系统中处理着很多故事,但它们不是您讲述的故事,而是讲述给您的故事 —— 您只是被告知的那个人。

A visual intro to Machine Learning Part 1 / R2D3: Stephanie Yee & Tony Chu

可视化是为人类服务的。计算机不需要任何东西被可视化给它们。人们一直在使用可视化主要是为了理解数据,但最近越来越需要可视化来承担它的人文角色,将算法可视化。

可视化算法在可视化世界里还是一个小小的边缘地带。它主要是学术性的,到目前为止主要服务于内部的数学和计算机科学语话。但网络协议可视化的潜力是巨大的。 人性化的可视化不是将抽象网络的不透明奇迹审美化,而是帮助人们了解那些用来控制人的不透明协议,甚至有可能为您提供调整协议的手段。

在上述 Waze 交通流可视化解决方案中,只有部分方案得到了测试。您能可视化的东西只有这么多。但在 Waze 新东家的引领下,自动驾驶汽车的趋势,旨在将人为因素完全剔除。

虽然人类是否应该驾驶自己的汽车这个问题有待商榷,但我 强烈反对在整个技术方面驱使人类远离自己的代理权的大趋势 。网络算法看不到由线连接的点,而人类甚至无法想象没有线的网络,这是很令人匪夷所思的。

尽管网络可能是抽象的、基本的和令人困惑的,但网络是21世纪生活的一个基本构造,我们需要概念和技术工具来分析它们。

一旦您承认网络的解剖学不仅仅是节点和边的形成及其布局,就可以谨慎地使用它们,并牢记:

  • 不强调流的可视化,意味着只有节点和边的布局就足以说明整个故事。
  • 通过呈现有限的节点和边的清单,可能意味着在暗示呈现在人们面前的是完整的网络,而不涉及其他节点或关系。
  • 网络是一个极其灵活和抽象的模型,在它的节点和边上游走,可能很快就会把您带进坑里,走入死胡同或发展出可疑的阴谋论。请谨慎处理。
  • 网络需要叙事,既可以作为注释层,也可以作为展示示范性网络流的方式。
  • 方向性是很重要的,可以作为一种有用的方式来布局一些网络流甚至协议。
  • 时间是我们生活中的一个组织原则,有时也可以在网络的可视化表现中起到类似的作用。
  • 算法可视化是网络图和整个数据可视化的下一个前沿。当然,前提是开源革命守住它成功的旗帜,彻底打破专有黑箱。

📌 最后,在您急于连篇累牍地用网络来思考一切之前,真的应该问一下:在这种情况下,是什么让网络模型成为必要?您要研究节点之间的关系吗?要比较边的容量吗?真的能够分析流的复杂性吗?又是否能够分析网络的协议?如果能,您可以影响它们吗?

如果所有的东西都是网络,那就什么都不是网络。但如果这个东西是网络,这就是您应该关心的原因。

如果您对此感兴趣,下面是一些资源帮助您进一步阅读:

  • 《The Exploit : A Theory of Networks》这是一本帮助您清楚地了解网络运作方式的书,并理解这种新兴权力形式的政治含义。它消除了所谓的“自由” 和 “民主” 网络的肤浅概念,并提供了关于网络协议如何创建新型控制的丰富分析。(可下载)
  • Visualizing Complexity 这是一个做网络图的网站,您可以看到他们有很多资源。对复杂网络的可视化感兴趣的任何人都可以使用它,您可以从这里获得启发。
  • Visualizing Algorithms
  • Responsible Data 这是一个做数据的社区,他们还提供资源和参与机会。

接下来的内容中我们将略去元数据部分,因为曾经有过详细介绍,在下面看到;

下一集我们将直接进入验证阶段 —— 虚假的数据/信息对调查人员是一个严重的误导,要避免这点,公民调查就需要将验证信息的技巧作为一个基础来重视它。

我们下次见。⚪️


文章版权归原作者所有。
二维码分享本站