使用谷歌表格进行收据收集和开源调查的方法:以中国的空军基地为例 - iYouPort
使用谷歌表格进行收据收集和开源调查的方法:以中国的空军基地为例
- 在本教程结束时,您将能够直观地游览中国的所有空军基地,找到您的研究所需要的东西
本文来自 Tom Jarvis 的演示。
互联网上有很多数据,本教程将探讨如何利用这些数据,并将其变成对记者、公民调查者和开源情报分析人员有用的格式。
首先,介绍一下本文要讲的内容。本教程将以一个小项目为基础,该项目将维基百科上的文章数据转换成谷歌地图文件。
该数据是一张中国空军基地及其坐标的表格,但其格式导致分析起来很麻烦,而且手动将每个基地添加到地图项目中会花费很长的时间。
他在谷歌表格中采用了一个非常有用的数据抓取公式,能够完整地导入表格,然后能够在自定义地图文件中进行格式化。
地图:
这个项目激发了其他人添加额外的数据,进一步推动了这个项目,并将更多的国家添加到项目中。
为什么要使用数据抓取?
数据抓取是汇编大量信息进行额外研究的好方法。比如,作为一个喜欢看卫星图像的人,把所有的数据钉在地图上是一个非常有用的工具,因为它省去了您手动添加每一个点。
它还允许您快速起步,建立研究的模板。在某种程度上,它也消除了用户的错误。
下面将向您介绍的这种特殊方法有其局限性 — — 即数据来源 — — 但节省的时间使您能在地图上以更直观的方式检查数据的质量。
开始工作
最好的信息类型是有坐标的表格(维基百科对此很有帮助),可以开始使用。这些信息可以很容易地被收集和整理到电子表格中,并提供大量的额外信息。
如果您想跟着这个教程走,建议您使用与案例中一样的 维基百科页面 。另一个可以查看的是维基百科的 “ 数据缺失或不清楚的卫星地图图像列表 ”。后者包含了很多异常情况和敏感的地点。每个人都想对世界上最神秘的间谍基地进行推测对吧……
即便您对电子表格经验有限也没关系。这些公式看起来有点令人生畏,但一切都可以复制/粘贴,您不需要任何数学技能就可以进行。
在谷歌表格中抓取维基百科表格的数据
从解放军空军基地页面抓取数据所需的代码是一个简单的导入HTML公式。
=ImportHtml(“https://en.wikipedia.org/wiki/List_of_People%27s_Liberation_Army_Air_Force_airbases", “table”, 6)
为了解释这一点,
=ImportHtml
告诉 Google 表格在特定页面和特定位置导入代码。
(“WEB URL”, “table”, TABLE NUMBER)
“WEB URL” 仅仅是您想抓取的页面的URL。它需要加引号。
“table” 是告诉Sheet将HTML导入为一个表格。您还可以导入其他元素,但这可能是最好的起点。
TABLE NUMBER 取决于页面的情况。如果一切顺利,您也许可以使用数字1。而在本案例情况下,表格会导入错误的元素,如下图所示:
要找到编号,您可能要用试错的方法。
格式化要转为地图文件的数据
要把它变成一个地图或 Google Earth 文件,首先需要知道它需要什么格式。
幸运的是,您可以导入CSV文件,这是一种简单的电子表格格式。
遗憾的是,我们现在还不能导入,因为坐标需要格式化。
导入时,需要将坐标放在独立的经纬度栏中。
以下是第一栏的条目。它以多种方式显示坐标。我们只需要一个。
30°35′00″N117°03′00″E / 30.58333°N 117.05000°E / 30.58333; 117.05000
选择最后一个(见下面的粗体和斜体):
30°35′00″N117°03′00″E / 30.58333°N 117.05000°E / 30.58333; 117.05000
需要考虑如何分离出这些值。手工操作是不可取的。它花费的时间太长,而且不能为更大的数据集做好准备。
我们要删除正斜杠之前的所有内容,以及正斜杠本身。还想去掉分号,最后,把经度和纬度分成不同的列。
使用Excel来进行电子表格的格式化也许更好,因为它提供了更好的选择,所以本案例下载了电子表格并将其加载到Excel中。
为了过滤掉所有不需要的数据,可以使用Excel中的查找和替换工具。按 Control+H 键可以很容易地访问这个工具。
使用该功能替换斜线之前的任何东西。如果您以前没有使用过 “*”,它是普通的计算机用语,表示 “任何东西”。
因此,有一个 “*/” 意味着在正斜杠之前的任何东西。
我们还可以删除最后一个字符 “).。用同样的方法删除 [“] 很容易,但由于括号是一个特殊字符,所以更改起来会有点麻烦。
如果您想完全按照这里的方法来做,创建一个名为 “固定坐标” 的新列,并使用一个公式来删除最后一个字符(很快会介绍):
=LEFT(C2, LEN(C2)-1)
现在我们已经从坐标中去掉了括号,只需要把它们分成两列,纬度和经度。制作这些列并复制坐标数据。
复制后,您需要只粘贴数值。这是绕过特殊字符在查找和替换功能中造成麻烦的另一种方法。
在第一个单元格上点击右键,可以看到粘贴选项。只粘贴数值是很重要的,因为需要将它们作为字符串而不是公式来编辑。
然后可以通过在查找部分使用 ;* 并在替换中使用空格来查找和替换分号之后的任何内容。
最后,对经度栏做同样的处理,但通过使用查找和替换并在方框中输入*; 删除分号之前的所有内容。
您现在有了一组格式化的坐标。将文件导出为.CSV格式,并将其上传到 “我的地图” 或 “谷歌地球”。
当它出错时
这个过程相对来说是很简单的,但是您需要在发布之前检查一下它是否正常。
在这里的 示例地图 中,出现了一个问题。您可以看到,在非洲附近有一个基地存在。这是为什么呢?
为了对此进行调查,可以参考我们的数据集。寻找渚碧礁的条目:
现在可以与任何其他错误一起手动修复,希望这些错误应该很少见。⚪️
Data Scraping with Google Sheets to assist Journalism and OSINT — Tutorial
文章版权归原作者所有。