使用谷歌表格进行收据收集和开源调查的方法:以中国的空军基地为例 - iYouPort

2021-08-03 原文 #iYouPort 的其它文章

使用谷歌表格进行收据收集和开源调查的方法:以中国的空军基地为例

  • 在本教程结束时,您将能够直观地游览中国的所有空军基地,找到您的研究所需要的东西

本文来自 Tom Jarvis 的演示。

互联网上有很多数据,本教程将探讨如何利用这些数据,并将其变成对记者、公民调查者和开源情报分析人员有用的格式。

首先,介绍一下本文要讲的内容。本教程将以一个小项目为基础,该项目将维基百科上的文章数据转换成谷歌地图文件。

该数据是一张中国空军基地及其坐标的表格,但其格式导致分析起来很麻烦,而且手动将每个基地添加到地图项目中会花费很长的时间。

解放军空军基地的清单很长,将它们手动添加到Maps项目中以进行进一步分析将花费很长时间。

他在谷歌表格中采用了一个非常有用的数据抓取公式,能够完整地导入表格,然后能够在自定义地图文件中进行格式化。

地图:

https://www.google.com/maps/d/viewer?mid=1dHrv7E_0mLVEzXdRxIGwaHBU16KEhrTj&hl=en_US&ll=35.139422978813165%2C102.79458500000001&z=4

这个项目激发了其他人添加额外的数据,进一步推动了这个项目,并将更多的国家添加到项目中。

为什么要使用数据抓取?

在本教程结束时,您将能够非常快速地游览中国的所有空军基地,找到您的研究需要的东西。

数据抓取是汇编大量信息进行额外研究的好方法。比如,作为一个喜欢看卫星图像的人,把所有的数据钉在地图上是一个非常有用的工具,因为它省去了您手动添加每一个点。

它还允许您快速起步,建立研究的模板。在某种程度上,它也消除了用户的错误。

下面将向您介绍的这种特殊方法有其局限性 — — 即数据来源 — — 但节省的时间使您能在地图上以更直观的方式检查数据的质量。

开始工作

最好的信息类型是有坐标的表格(维基百科对此很有帮助),可以开始使用。这些信息可以很容易地被收集和整理到电子表格中,并提供大量的额外信息。

如果您想跟着这个教程走,建议您使用与案例中一样的 维基百科页面 。另一个可以查看的是维基百科的 “ 数据缺失或不清楚的卫星地图图像列表 ”。后者包含了很多异常情况和敏感的地点。每个人都想对世界上最神秘的间谍基地进行推测对吧……

即便您对电子表格经验有限也没关系。这些公式看起来有点令人生畏,但一切都可以复制/粘贴,您不需要任何数学技能就可以进行。

在谷歌表格中抓取维基百科表格的数据

从解放军空军基地页面抓取数据所需的代码是一个简单的导入HTML公式。

=ImportHtml(“https://en.wikipedia.org/wiki/List_of_People%27s_Liberation_Army_Air_Force_airbases", “table”, 6)

将数据表从维基百科导入到电子表格的代码。请注意,URL 和末尾的数字(在本例中为 6)将取决于您正在研究的内容。

为了解释这一点,

=ImportHtml

告诉 Google 表格在特定页面和特定位置导入代码。

(“WEB URL”, “table”, TABLE NUMBER)

“WEB URL” 仅仅是您想抓取的页面的URL。它需要加引号。

“table” 是告诉Sheet将HTML导入为一个表格。您还可以导入其他元素,但这可能是最好的起点。

TABLE NUMBER 取决于页面的情况。如果一切顺利,您也许可以使用数字1。而在本案例情况下,表格会导入错误的元素,如下图所示:

要找到编号,您可能要用试错的方法。

格式化要转为地图文件的数据

要把它变成一个地图或 Google Earth 文件,首先需要知道它需要什么格式。

幸运的是,您可以导入CSV文件,这是一种简单的电子表格格式。

遗憾的是,我们现在还不能导入,因为坐标需要格式化。

导入时,需要将坐标放在独立的经纬度栏中。

目前经纬度数据无法使用。我们需要将它们拆分并删除不需要的字符

以下是第一栏的条目。它以多种方式显示坐标。我们只需要一个。

30°35′00″N117°03′00″E / 30.58333°N 117.05000°E / 30.58333; 117.05000

选择最后一个(见下面的粗体和斜体):

30°35′00″N117°03′00″E / 30.58333°N 117.05000°E / 30.58333; 117.05000

需要考虑如何分离出这些值。手工操作是不可取的。它花费的时间太长,而且不能为更大的数据集做好准备。

我们要删除正斜杠之前的所有内容,以及正斜杠本身。还想去掉分号,最后,把经度和纬度分成不同的列。

使用Excel来进行电子表格的格式化也许更好,因为它提供了更好的选择,所以本案例下载了电子表格并将其加载到Excel中。

如果您想要更轻松的格式化体验,请将数据加载到 Excel 中

为了过滤掉所有不需要的数据,可以使用Excel中的查找和替换工具。按 Control+H 键可以很容易地访问这个工具。

使用该功能替换斜线之前的任何东西。如果您以前没有使用过 “*”,它是普通的计算机用语,表示 “任何东西”。

因此,有一个 “*/” 意味着在正斜杠之前的任何东西。

我们还可以删除最后一个字符 “).。用同样的方法删除 [“] 很容易,但由于括号是一个特殊字符,所以更改起来会有点麻烦。

如果您想完全按照这里的方法来做,创建一个名为 “固定坐标” 的新列,并使用一个公式来删除最后一个字符(很快会介绍):

=LEFT(C2, LEN(C2)-1)

现在我们已经从坐标中去掉了括号,只需要把它们分成两列,纬度和经度。制作这些列并复制坐标数据。

复制后,您需要只粘贴数值。这是绕过特殊字符在查找和替换功能中造成麻烦的另一种方法。

在第一个单元格上点击右键,可以看到粘贴选项。只粘贴数值是很重要的,因为需要将它们作为字符串而不是公式来编辑。

然后可以通过在查找部分使用 ;* 并在替换中使用空格来查找和替换分号之后的任何内容。

最后,对经度栏做同样的处理,但通过使用查找和替换并在方框中输入*; 删除分号之前的所有内容。

您现在有了一组格式化的坐标。将文件导出为.CSV格式,并将其上传到 “我的地图” 或 “谷歌地球”。

当它出错时

这个过程相对来说是很简单的,但是您需要在发布之前检查一下它是否正常。

在这里的 示例地图 中,出现了一个问题。您可以看到,在非洲附近有一个基地存在。这是为什么呢?

你可以看到在非洲有一个基地,但实际上并没有。注意它的位置

为了对此进行调查,可以参考我们的数据集。寻找渚碧礁的条目:

渚碧礁的条目在维基百科表格中从未有过坐标,因此导致电子表格出现错误。此错误转换为地图上的默认位置

现在可以与任何其他错误一起手动修复,希望这些错误应该很少见。⚪️

Data Scraping with Google Sheets to assist Journalism and OSINT — Tutorial


文章版权归原作者所有。
二维码分享本站