如何制作自己的互联网存档

互联网档案馆有很多限制，但您依然可以获得自己的离线的存档，让一个网站保持它本来的样子

您有很多理由想要保存一个网站、网页、视频、音频等等，它们可能会随着时间消失，或者您的翻墙软件失败。比如我们的网站，多位读者询问过是否有 “全网站下载”，很遗憾我们不会提供那种功能，但您可以自己完成，包括其中所有视频，都可以离线存档。nixintel 介绍了如何做到这点。

互联网开源调查的最大挑战之一是一旦发现数据后如何保存。

您可以获得的信息比以往任何时候都多，但如果您不采取措施将其存档，那么很多信息很容易丢失。如果您曾经将一个重要的资源加入书签，但稍后再回来时却发现它已经不存在了，您就会知道这有多么令人沮丧。

互联网档案馆可能是人们最熟悉的保存网页的工具，但它并非没有局限性。例如， 它不能捕获 Facebook 页面，即使您指示它开始存档一个网站，那么如果该网站的 robots.txt 阻止抓取，它也很容易失败。

越来越多的 Javascript 和嵌入式视频内容的使用，也让网页的抓取和存档变得更加困难。 您在 Internet Archive 上找到的保存的网站往往缺少了许多原始内容和功能。

为了应对这种情况，有必要使用几种类型的工具来为您的调查保存网页内容，而不是仅仅依靠一种工具。

Hunchly 对于抓取网页来说是非常好的，但您还是需要用 YouTube-dl 来补充，用来抓取视频内容。最近出现的 Archive Box 工具可以帮助您建立想要保留的网页内容的离线档案。它并不是为开源调查工作而设计的，但它完全可以胜任保存和归档多种格式的网页的任务，包括基于 JavaScript 的网站和PDF/PNG截图。 视频和音频内容也可以被下载和保存。

Archive Box 可以为您的书签、浏览器历史记录或从您提供的自定义URL列表中列出的网站，建立完整的存档 。

本文将展示如何设置和安装 Archive Box，并开始存档您自己的网页。

设置

Archive Box 是用Python编写的，可以在 Linux 和 Mac OS 上运行。它利用原生的 Linux/Mac 程序，如 curl 和 wget 来抓取大量的数据，所以与许多其他 Python 工具不同，它不会在 Windows 中运行。如果您想在Windows环境中使用 Archive Box，那么您需要按照这里的说明安装并使用 Docker 运行它。

Archive Box 的最新版本(0.4.21)可以通过 Pypi 获得，将在本指南中安装它。它需要 Python 3.7 或更高版本才能运行。Archive Box 也可以在 Windows 上运行，前提是您已经安装了 Python/Pip 。

要检查您当前的 Python 3 版本，请进入控制台并输入：

$ python3 -V

如果版本小于 3.7，您需要安装一个更新的 Python 版本。

一旦您安装了 Python 3.7 (或更高版本)，可以用下面的命令直接从 PyPi 安装 Archive Box：

$ pip install archivebox

如果您不熟悉 Python和Pip，可以看这篇文章。如果您使用的是 MacOS，则可以用 Brew 安装 Archive Box：

$ brew install archivebox

Archive Box 也有一个 Docker 镜像，这意味着您也可以在 Windows 上运行它，只需要先设置 Docker。

接下来，您需要创建一个存放您的存档的目录，并在那里完成 Archive Box 的设置。

$ mkdir myarchive && cd myarchive 
$ archivebox init

安装完成后，您就可以开始构建存档文件了。

基本用法

所有命令均采用以下格式：

$ archivebox [command] [argument]

要存档单个网页，请使用以下命令：

$ archivebox add 'https://域名'

也可以在您的请求中添加递归，这样不仅可以对您指定的页面进行存档，而且 Archive Box 也会对页面上的每一个链接进行跟踪，并将其也存档。depth 越大，它就会跟着链接走得越远。递归可以通过以下选项来添加：

$ archivebox add 'https://域名' --depth=1

现在将存档该站点，并跟踪其中的所有链接，depth=1，然后也存档所有这些页面。

查看存档

这里是新存档：

要查看您的存档，打开浏览器并导航到您创建的存档文件夹中的 index.html 文件。它将是类似 /home/username/myarchive/index.html 的东西。存档记录了您创建它的时间，保存的链接，以及原始的URL。点击 “文件” 就可以看到 Archive Box 的强大功能。

现在目标网站首页已经被保存为离线本地存档（包含所有必要的 JavaScript，因此外观与实时版本相同），您也会注意到 Archive Box 甚至在WayBack Machine上也存档了一份。所以现在您的机器上已经有了一个完整的网站工作档案保存在本地。比起简单的截图，这是一种更好的保存网页的方式，即使原来的网站消失了，您仍然有一个完整的离线副本可以使用。

存档多个网站

只有一个网站的存档并没有多少乐趣。幸运的是，Archive Box 还能让您轻松地一次存档多个网站，无论是从URL列表，还是从浏览器的保存书签。要对多个网站进行存档，请创建一个类似这样的文本文件，每行只有一个URL：

https://gabrielrockhill.com
https://thebulletin.org
https://quillette.com

然后，输入以下命令（假设您的URL列表与存档文件位于同一目录中）：

$ cat url_list.txt | archivebox add

几分钟后，所有列出的网站都以与以前相同的格式添加到您的离线存档中。

尽管如此，事实上，网站的PDF和PNG版本也被创建，这意味着您仍然可以看到网站在存档时的样子。您还会注意到前文中提到的 Wayback Machine 的一个限制。如果一个网站不想被 Wayback Machine 抓取，唯一能保留的就是 301错误。以多种格式存档意味着材料丢失的几率大大降低。

视频内容

Archive Box 使用 YouTube-dl，因此它也可以对视频内容进行存档。比方说，您想把这个十分钟小贴士添加到您的存档中。您可以运行以下命令。

$ archivebox add https://www.youtube.com/watch?v=zo_geMvcOg8&feature=youtu.be

整个10分钟小贴士现在将保存到您的档案中，包括视频和音频文件。

要访问已存档的视频/音频，请单击右侧的 “媒体” 链接。您会看到视频、音频和缩略图的内容都已离线保存：

存档您的书签

Archive Box 还允许您创建保存在书签中的网站档案。只需将浏览器中的书签列表导出（Chrome浏览器和Firefox浏览器请看这里和这里的说明）为HTML文件，然后将 Archive Box 指向它。

$ archivebox add /path/to/bookmarks.html

最后

能够捕获和保存网络内容是开源调查人员的核心技能。有几个技术挑战使这一工作变得困难，但 Archive Box 是收集和保存所需信息的一种非常有效的方法。

Archive Box 正处于积极的开发中，并不断添加新的功能和更新，因此本帖中的一些内容可能会随着时间的推移而过时。请在 Twitter 上关注 @ArchiveBoxApp，了解最新更新。⚪️

Make Your Own Internet Archive With ArchiveBox

觀點2

如何制作自己的互联网存档 - iYouPort

设置

基本用法

查看存档

存档多个网站

视频内容

存档您的书签

最后

赞过：

相关

#iYouPort 的其它文章

如何制作自己的互联网存档 - iYouPort

设置

基本用法

查看存档

存档多个网站

视频内容

存档您的书签

最后

共享此文章：

赞过：

相关

#iYouPort 的其它文章