如何快速找到你想要的东西:追踪数字证据的小技巧 - iYouPort

2020-08-26 原文 #iYouPort 的其它文章

如何快速找到你想要的东西:追踪数字证据的小技巧

  • 本文将帮助您探索从互联网上挖掘证据的基本方法 —— 寻找和检索历史信息和 “丢失的 “信息;以及如何将自己的网页副本存档和保存,以备将来参考的方法,防止审查删帖和技术故障

每当你需要在互联网上查找信息时都会遵循一条线索,但如果链接不再可用或网站被废弃,您的线索就断了。

有时,您会在网站上找到重要信息,这些信息可能会增加您的调查的价值,但您不会马上意识到这点,而是稍后才能意识到它的价值。

而当您重新访问该网站准备进行记录时,您可能会发现它不再存在,您记忆中的特定网页已被删除,或者您所需的信息不再可用,已被新内容替换。

在调查过程中,您可能会面临上述所有这些挑战。

案例分析

一个著名的案例是,Facebook 在全球政治活动中成功案例的清单,该网页被删除了,后来证明对调查人员来说是至关重要的证据,

Facebook 的网站原本支持了多个 “政府与政治” 项目,政党和候选人利用该社交网络的工具和服务在网上锁定选民、影响选举结果。该网页可在这里找到: https://www.facebook.com/business/success/categories/government-politics 。这个链接曾经是有效的,直到突然之间,它就失效了。

在 “剑桥分析公司” 数据收集丑闻爆发并引起了对公司允许第三方出于商业和政治目的访问其用户群私密数据的做法的强烈关注之后,Facebook 在2018年初将其页面从案例列表中删除。

The Intercept 报道过这一背景, 在这里找到

在这种情况下,是否有某种方法可以使时光倒流并在内容被更改或被删除之前获得该网页或至少其一部分的副本?

幸运的是,有一些简单的方法可以检索旧的内容和已删除的页面,因此您仍可以在调查中引用它们。您还可以保存当前可访问的页面,以便以后可以使用它们,即使在此期间对其进行了修改或删除。

有多个这样的服务可以自动存档网站的历史版本。除了内容外, 这些数字档案通常包含的信息可以帮助您识别其他重要的数据 —— 如网站的所有者、有用的名称、联系方式、文件和其他网站的链接等

其中一些服务允许您手动保存网页,从而为他们存档的网站列表做出贡献。您(和其他人)可以在以后检索这些网站的快照。

回到上面的案例,在这样一个服务的帮助下 —— 互联网档案馆的 “时光机”(下文将详细探讨)—— 您可以找到 Facebook 曾经在其 “Success Stories” 网页 https://www.facebook.com/business/success 的 “政府与政治 “部分下的存档列表。

在这里您可以看到,这些信息在2017年还在线,现在仅保存在互联网档案馆中。

更重要的是,一些旧的内容是可以访问的,在存档页面中的一些旧链接仍然有效,所以你可以实际阅读到他们的政治运动项目的细节。

此类网站的存档版本保留了对于调查人员来说非常有价值的信息。

例子

记者和安全研究员 Brian Krebs 使用了 一个销售恶意软件的网站的存档材料,帮助确定了该 恶意软件 可能的作者。

该网站的一个存档版本包含了一个 WebMoney(全球在线企业支付系统)的账号,该账号与一个在暗网论坛上推广恶意软件的人的用户名相关联。

根据这一线索,Krebs 能够从该论坛的用户名追溯到据称创建和传播恶意软件套件的个人的真实身份。

安全第一!

当您将存档服务指向您感兴趣的网页时,它将抓取该网页并存储一份副本。而被存档的网页将自动添加一个记录到正在进行的 “访问日志” 中,它记录了什么时候、通过什么IP地址进行的访问。

细心的网站管理员或自动化流程可能会意识到自己的网站的一部分已被 Wayback Machine 存档。

反过来,这可能会给他们提供线索,表明有人正在调查特定内容或与他们有关的人。

在某些情况下,如果您正在研究的内容是敏感的,并且必须至少一段时间内不能让公众看到,那么仅此一点就足够让您失败了。

至少,网站管理员可以将存档的资料从 Wayback Machine 中删除。(这也是为什么要把对你的调查至关重要的内容制作成自己的离线副本的原因之一)。管理员还可以删除或修改你尚未找到的类似内容。

大多数存档服务都会保留访问日志。

例如,Webcite 会记录每个用户的计算机操作系统和网络浏览器,以及每个用户的互联网服务提供商的域名(Webcite 隐私政策 中有写到)。因此, 在使用存档服务时,您最好能使用VPN和Tor浏览器。

此外,某些服务要求每个用户创建一个帐户,选择一个用户名,提供付款信息、验证电子邮件地址或关联社交媒体资料。

您应该考虑建立一组 单独的替身帐户 —— 袜子木偶 ,以便与此类服务一起使用,将调查工作与个人在线身份切割开,避免追踪。在下面看到更多具体做法:

在某些情况下,您完全可以 为特定调查创建单一用途的 “角色/身份”,并在调查工作完成后将其废弃

无论哪种方式,您的第一步都是创建一个相对安全的、完全独立的电子邮件帐户,您可以在 tutanota.de 或 protonmail.com 上轻松地进行此操作。

支付方式是比较难以掩盖的。如果您居住在可以用现金购买预付信用卡的地区,那可能是您的最佳选择。

如果您能做到上述,即便网站管理员从 Wayback Machine 中观察到了突然出现的追踪迹象,你的调查对象也可能很难将此迹象追溯到你身上。

理论上,如果您选择的存档服务是值得信赖的,如果没有人能够同时访问网站的日志和存档服务的日志,那么这位管理员可能很难将线索联系起来。

话虽如此,但最好采取上述建议的预防措施,而不是依赖这个假设。例如,假设只有少数几个IP地址在被添加到 Wayback Machine 的同一天浏览了该存档页面,任何人都很容易就能想明白,自己被盯上了。

使用 Wayback Machine 存档和检索内容

Wayback Machine 是位于旧金山的非营利组织 Internet Archive 的一个项目,自1996年以来一直致力于保存数十亿个网站,这是对互联网进行归档并提供对所有知识的普遍访问能力的一部分。截至2019年初,它已存档了约345亿个网站。

时光机是研究人员、历史学家、调查人员和学者的重要工具。它免费向公众开放,可以帮助您访问在不同时间点拍摄的网页快照。

它的抓取并没有固定的模式来决定他们访问哪些网站,以及他们访问的频率,因为会受到资源限制和政策决定的影响。

因此,您可能不一定能找到特定日期、月份甚至年份的存档版本。此外,网站可以主动选择不被 Wayback Machine 等服务存档。通过在名为 “robots.txt “ 的文本文件中发布一组限制,网站可以指示爬虫将其部分或全部内容从存档或索引中剔除。

尽管如此,Wayback Machine 的大量数据依然很可能在您的许多调查中不可或缺的。

注:

Robots.txt 是位于网站上的文件,列出了爬网程序应该或不应该访问的网站部分。如果网站上有 robots.txt 文件,则可以通过在其域或子域中添加 “ /robots.txt” 来进行查看。例如: https://google.com/robots.txt

网站可以使用这个文件来阻止 Wayback Machine、Google 等搜索引擎或任何其他索引或存档服务的爬虫。

一些网站管理员选择使用限制性的 robots.txt 文件的原因有很多:例如,限制带宽成本、减少超载的服务器压力、保护商标图片,或者防止未完成的网站出现在搜索结果中。

然而,在某些情况下,他们这样做是为了掩盖潜在的敏感内容。

虽然 Wayback Machine 并不总是遵守这些限制,但仍有许多网站的爬虫程序会因为 robots.txt 指令而拒绝存档。

如果您在使用 Wayback Machine 查看或归档网站上的部分页面而不是全部页面时遇到困难,您可以检查其 robots.txt 文件,看看是否该网站的任何部分被 “禁止” 了。

除了提供用于检索自动存档网站的简单界面之外,Wayback Machine 还允许您手动存储网页快照,从而确保它们不会突然消失。

此服务不仅可以存档与您的调查有关的网页,而且还为您提供了一种简便的方法,使您可以在调查形成时引用研究并链接到内容。

虽然将重要网页的 HTML 或 PDF 副本保存到自己的设备上,并确保有多个备份是个好主意,但如果你最终与他人共享这些存档,使用 Wayback Machine 可以增加中立性和信任度。对大多数人来说,这也比维护一个离线数字文件库要方便得多。

使用 Wayback Machine 查找页面

为了找到不再可访问的页面,或查看旧版本的网页,只需转到 https://web.archive.org,然后输入要搜索的网址。

如果该页面以前曾被存档,则保存日期将显示在当年的日历上。您可以使用时间轴导航到目标年份,该时间轴也会显示该页面每年归档的频率图。点击您感兴趣的年份后,该年的档案将以带颜色的圆点标记在日历上。

本文将以2018年因公司倒闭而被撤销的网站 https://cambridgeanalytica.org/ 为例(更多详细内容请参见上面的关于剑桥分析公司丑闻的内幕文章)。

蓝色点表示该日期已捕获了完整的网页。这些通常是您要查找的档案。绿色点表示,当搜寻器访问该网址时,它会自动重定向到同一网站上的另一个页面。这些档案可能不包含您要搜索的内容。

橙色和红色的点表示在归档过程中发生了错误,这可能是由于搜寻器或网站服务器出现故障所致。

大点表示当天有多个存档。您可以将鼠标悬停在它们之上,以根据一天中的时间选择特定的归档文件。

选择页面的存档版本后,Wayback Machine 的导航栏将显示在屏幕顶部,这样,您可以使用时间线或单击 “下一个” 和 “上一个” 按钮在该页面的不同存档之间浏览。

注:

为了帮助您确定在线证据的有效性,您可能需要验证 Wayback Machine 归档网页时的确切日期和时间。

您可以通过检查存档网址中嵌入的 “时间戳” 来实现。该时间戳的格式为四位数的年份,然后是捕获归档文件时的月份、日期、小时、分钟和秒的两位数字表示形式。

您可以在 “ https://archive.org/web/” 和已存档页面的网址之间找到它。例如,以下存档于2017年8月31日06:00 27秒被捕获: https://web.archive.org/web/20170831060027/https://cambridgeanalytica.org

使用浏览器进行快速查找的技巧

Wayback Machine 还可以让您请求其存储的特定网站存档,而无需通过其搜索界面。

相反,您可以通过自己的浏览器访问格式正确的网址来执行此操作。

只需将网址添加到 Wayback Machine 地址的末尾即可:

“https://web.archive.org/www.yoursite.com/” (其中 “www.yoursite.com/” 是您要搜索的任何网站)

您的浏览器将显示您要查看的网站的最新存档版本。

此外:

如果您用星号(*)分隔两个地址,则浏览器将加载档案的日历视图:“ https://web.archive.org/*/www.yoursite.com/”

如果您还在最后添加了一个星号,则 Wayback Machine 会向您显示该域下的所有存档,而不仅仅是主页:“ https://web.archive.org/*/www.yoursite.com/*

例如,浏览到 https://web.archive.org/web/*/cambridgeanalytica.org/* 将逐页显示 Wayback Machine 存档的所有 cambridgeanalytica.org 页面。

使用 Wayback Machine 存档网页

Wayback Machine 的另一个关键功能是它能够按需存档网页。

无论您是想保存调查信息,还是确保自己发表的作品的可访问性,您都可以导航到 https://archive.org/web ,在页面右下角找到 “立即保存页面” 表格。

只需输入一个网址(如 “ http://www.yoursite.com/projects “),然后点击 “保存页面” 按钮。

除非您输入的网站已阻止互联网档案馆的存档,如上文中的 robots.txt 部分所讨论的那样,否则 Wayback Machine 将开始存档。您将看到一个进度条,它会让您知道页面何时保存。

注意

上述步骤将只存档您提交的页面(在本案例中是 “ http://www.yoursite.com/projects “),而不是该网站上的所有内容。如果您想用这种方法存档整个网站,您需要单独提交每个页面。

此外,此功能并不能保证将来会定期存档该页面,所以您可能需要不时地重新访问 Wayback Machine,请求额外的快照。

下载存档内容

不幸的是,互联网档案馆不允许你搜索其庞大的存档中的所有网站的全文。虽然它确实提供了某些档案的主页面的搜索功能,但目前它并没有对其3450亿页的网页进行索引。但是,如果你想搜索特定域的存档内容,有一个方法可以做到。

如果您在计算机上安装了 Ruby 语言 (1.9.2或更高版本),则可以使用 Wayback Machine Downloader 脚本下载给定域下的所有存档文件。

该脚本可让您指定要下载的日期范围,如果您正在使用已存档多年的网站,这将会很有帮助。

Wayback Machine 的局限性

如上所述,并非所有网站都由 Wayback Machine 自动或定期存档。

使用标准的算法来选择站点,例如,人们访问它们的频率以及其他网站链接到它们的频率(这也是可信度的指标)。其中一些数据来自领先的网络流量、统计和分析公司 Alexa 产生的排名。

如上所述,虽然您可以手动存档某些页面,但是您不能影响 Wayback Machine 将自动定期存档的网站集。

Wayback Machine 也有其他限制。示例包括:

  • 受密码保护的网站不会存档。
  • 严重依赖 JavaScript 的动态网站可能无法正确存档。
  • 网站管理员可以通过发布限制性的 robots.txt 文件(如上所示)或直接向档案馆发送请求,来明确要求不要存档其网站。
  • 网站管理员可以请求从 Wayback Machine 中删除以前存档的内容。
  • 目前没有全文搜索。

示例

为了说明存档有时也可能消失的原因,记者 Joy-Ann Reid 所经营的博客的辩论中就涉及到了这个问题。

Reid 的律师联系了互联网档案馆,并试图删除其博客的存档版本,称她的某些文章被一个不知名的团体所操纵,该团体在她的作品中插入了欺诈性内容。

当请求不起作用时,Reid 的博客只是更改了 robots.txt 文件,以限制 Wayback Machine 的抓取。抓取工具收到更改后,会自动将博客的存档全部删除。

此案例说明了人员和组织如何使用法律和技术手段从这些第三方存档中删除内容。

在欧盟和其他一些地区,“被遗忘权” 使个人可以选择要求搜索引擎和数字档案馆删除与他们相关的被认为有害或诽谤的内容。

这项权利有局限性,因此并非所有内容都可以根据要求删除,但是请记住, 您调查的某些主题(尤其是政客、罪犯和其他有争议的人物)可能会利用该机会删除与他们相关的互联网内容 —— 证据,阻碍您的调查

请记住,域名可以出售,废弃的域名可以重新注册。结果,随着时间的推移,单个域可能由多个所有者管理。在这种情况下,网站的存档历史记录可能不是连续的,并且较旧的资料可能与您的调查无关。

其他检索和存档网页的方法

Archive.today

Archive.today (以前称为 archive.is)会存档网页,就像 Wayback Machine 一样。

但是,Archive.today 的不同之处在于,它仅存储单个页面,而不是整个网站,并且仅根据其用户的请求而不是自动存储。

这是来自 https://cambridgeanalytica.org/ 的存档页面示例:

由于它不会抓取网站,因此几乎没有您在 Wayback Machine 上可以找到的广泛信息。

但是,它确实提供了 三个关键功能

  1. 与 Wayback Machine 不同,它使您可以搜索其存档的全文。
  2. 它会忽略其存档网站的 robots.txt 文件中可能指定的任何限制。因此,它可以保存 Wayback Machine 无法访问的某些页面的快照,例如公开 Facebook 个人资料和 Twitter 帖子。
  3. 它还可以保存存档页面的文本副本和屏幕截图。与保存页面本身相比,这有时可以提供更高的准确性,尤其是在存档快速变化的内容时(例如滚动显示的论坛消息和图像的快照等)。

您可以通过输入确切网址(例如 “ https://cambridgeanalytica.org”)来查找网页存档,也可以使用通配符(*)查找网站的存档子域或子目录(例如 “ *” .cambridgeanalytica.org”)。这是 Archive.to 中搜索* .cambridgeanalytica.org 的内容:

与 Wayback Machine 一样,archive.today 使用带有嵌入式日期戳的网址为您提供到存档内容的直接链接,如下所示: http://archive.today/2018.01.01-042001/https://ocean.cambridgeanalytica.org/

Archive.today 还通过 archivecaslytosk.onion 提供Tor服务。洋葱服务只能通过Tor浏览器访问,但是它们使您能更轻松地使与服务的交互保持匿名。如果您正在研究一个敏感的主题,或者怀疑自己的在线活动可能会被跟踪,那么 此功能会特别有用且至关重要

Google Cache

Google 缓存是查找最近被删除或无法访问的页面的另一种方法。

Google 访问网页时,会创建该页面的缓存版本或副本作为备份。它通常会在搜索结果中提供这些副本。

要访问 Google 的网页缓存版本,请使用 Google 搜索引擎搜索您要查找的页面,单击搜索结果网址右侧的小箭头,然后选择 “缓存”。这将加载网站的缓存版本,该版本由 Google 的抓取工具先前将网站编入索引时备份。

在上述情况下,尝试搜索现已失效的网站 http://cambridgeanalytica.org/ 的缓存,但自2019年2月28日起,谷歌搜索不再提供该缓存。但是,它的缓存版本在2019年2月26日仍然可用,今天可以 通过 archive.today 捕获它。

与上述存档服务不同,Google 的缓存不提供其存储页面的历史记录。

取而代之的是,它在爬网程序最后一次访问它们时显示这些页面的内容,因此它可能会显示当前版本的网页中缺少的内容,或者使您可以访问已被删除的内容。

找到一个缓存的网页表明它曾经存在,但是缓存经常被更新的内容覆盖或完全消失(就像上面的例子那样)。此外,网站管理员可以要求Google从其缓存中删除内容。

由于某种原因,Google 可能不会将缓存页面保存足够长的时间,以至于您无法将其用作调查的依据,因此,通常最好使用诸如 Archive.Today 这样的附加服务来备份缓存页面本身。并制作自己的离线副本作为备份。

屏幕截图和PDF对记录特定版本的页面都很有用,并且在以后需要证明信息正确时可以为您提供帮助。

如今,当您使用 Wayback Machine 或 archive.service 之类的服务来存档网页时 —— 尤其是当它具有冗长而复杂的网址时(例如 Google Cache 的存档副本), 请务必将该链接单独保留 。依靠浏览器的历史记录来查找此类内容是灾难的根源。

WebCite

Webcite 是一项免费服务,它提供一种方法来保存文章或期刊中引用的链接,包括互联网上的网页或其他数字内容。

该服务通常由希望保留其在线引用的作者、编辑、研究人员和出版商使用。

WebCite 允许快速手动保存单个网址。它还提供了一项服务,可以自动 “梳理” 上载的文本文档,以保留源自在线资源的所有引用。

WebCite 支持几种不同的方法来检索引用的材料。除了可读和缩短的网址外,WebCite 还为引用提供了更高级的参考格式,例如 DOI(数字对象标识符)和密码哈希。

您可以使用他们的书签或通过Web表单(https://www.webcitation.org/archive)向 WebCite 提交内容。

注:

检索网站内容并在发生任何更改时保持更新的另一种方法是使用站点监视器。这些服务可以跟踪和监视网页中的视觉变化,无论变化发生在代码、图像、还是文本中。这些工具对于研究人员来说非常有用,并且如果您的调查需要监视许多有用的网站,则可以帮助自动化某些工作。

它以不同的方式存档网页,提供一个要查看的网页特定部分,它会拍摄快照,然后监视页面中的可见更改。

如果有任何变化,无论大小,站点监视器都会向您发送一封电子邮件以通知您。

该电子邮件将包含一个网站链接,您可以在其中查看更多详细信息。一些站点监视器会附加更改前后的屏幕截图。

作为调查人员,您可以将站点监视器与存档服务结合使用,以了解重要的网站更新。

为了能通知您,这些工具要求您设置一个帐户并向他们提供对电子邮件地址或电话号码的访问权限。

再一次,您可以通过创建一个单独的替身电子邮件地址来避免暴露您的真实身份和联系方式,尤其是在进行敏感调查时。

Visualping

Visualping 提供了一项免费计划,使您每个月最多可以监视62个网页。这意味着它可以每天检查两个网页之间的任何内容(如果发生更改就提醒您),或者每周检查多个页面,或其他适合您的组合,总之每月62个网页。

免费版本可以每小时、每天、每周或每月运行一次检查,以将网页与其以前的版本进行比较,并在文本、图像、关键字或任何选定页面区域发生修改时通过电子邮件提醒您。该服务还可以通过 Tor 浏览器工作,非常建议将此选项用于加固的隐私和安全性。

ChangeTower

ChangeTower 提供了一项免费计划,该计划最多可以监视三个网站,每天最多可以进行六次检查(在这种情况下,它可以每天扫描一个网站两次)。它可以监视特定的URL、整个网站或其他(您可以选择要监视的网站页面)。

它可以搜索文本内容、视觉内容、html、关键字等细节的更改。免费计划可将您的监视结果最多存储一个月。该服务也可以通过Tor浏览器工作,推荐使用。

好了,就是这样!您学会了吗?作为调查对象的那些家伙往往是非常狡猾的,他们会专注于掩盖证据,在实践过程中您将可以积累到更多有利于您的调查工作的方式。希望您总是能够挖掘到想要的内容。好运。⚪️


文章版权归原作者所有。
二维码分享本站