民间数据库和处理分析工具：挖掘黑钱、腐败、有组织犯罪、离岸公司……

独立调查报告需要更专业的水平、更高的技术能力和更多的经验。从哪里收集有效数据？如何抽取、筛选、整合、分类大量琐碎的信息？如何分享、存储数据，并实现随取随用？本文整理了一套数据收集和处理工具的清单，分为八大类都是工具，发挥您的创意

独立调查报告需要更专业的水平、更高的技术能力和更多的经验。从哪里收集有效数据？如何抽取、筛选、整合、分类大量琐碎的信息？如何分享、存储数据，并实现随取随用？这里整理了一张数据收集和处理工具的清单，分为八大类，方便实用，各有所长。

另外，一些记者或者新闻机构建立的“民间数据库”，摆脱了政府网站的造假可能，协助深度调查工作的开展。公民社会组织也可以以这些资源为线索，使用我们早前提供的工具，进一步深入开源调查 #OSINT 。

下面分头介绍。

1.全文本搜索和挖掘的引擎：

包括：搜索方法、技术：全文本搜索，信息检索，桌面搜索，企业搜索和分面搜索

开源搜索工具：

Open Semantic Search ：专门用于搜索自己文件的搜索引擎，同样的还有 Open Semantic Desktop Search :可用于搜索单一一台笔记本电脑或单一用户的文件资源。
InvestigateIX : 用于搜索加密外部设备
Recoll : 适用于 Linux 系统的桌面搜索引擎
Fuzzy search with lists ：清单搜索、模糊搜索

搜素数据库和 API

如果你想编程，可以试用以下强大的搜索引擎： Solr 和 Elastic Search ，支持索引和 API 搜索，更多全文搜索、实时检索、数据分析、多格式数据读取（JSON, SML, CSV 或 HTTP）等强大功能有待开发。

2.数据库、数字文档、数据管理系统、文件管理系统和内容管理系统：

不同格式的脚注、尾注、文中引用和文献参考很麻烦？资源整理工具 Zotero 的标注和引用功能可以解决难题。它可以在 Word，Open Office 添加引用，在 Google doc 和电子邮件中插入文献参考，或者为数据库添加标记。

LibreOffice Calc :开源表格程序
Document cloud :文档管理系统，管理纸质文件扫描版本或者 PDF 格式文件
Semantic MediaWiki : MediaWiki (著名开源引擎，可用于构建企业/个人知识库，维基百科就是使用 MediaWiki 的成功范例)的免费开源扩展，可供用户存储、调用数据
Drupal CMS :内容管理模块，可以让你快速便捷地以用户界面创制自己的内容格式、数据字段

想从大量文件中单独抽取金额来分析？专业的文件管理系统 Agorum 可以自动从账单抽取金钱数额。
想标记图片中的文字？ Pundit 帮你办到，它同时支持文本和图片标记。
想在网站加注释？ Annotator.js 在任何网页加注释，而且可以添加评论、标签、链接、用户或者更多不同种类的信息，第三方插件还能帮你在难以搞定的 PDF、EPUB、视频、图片、声音甚至更多格式的文件上添加标注。

标注了信息，想收到更新提醒？ Hypothesis 可供用户订阅一系列已标注的活动信息，而且能按照自己的兴趣获取通知，而且还能分享评注、链接词典。程序员还可以获取有限的网站许可，通过第三方应用创建、更新、删除、搜索注释。

3. 文本文件挖掘、分析

Text mining tutorial: How to analyze large document collections ：文本挖掘教程：如何分析大容量文件集（使用 Open Semantic Search 来挖掘文本）
Understanding language data : 理解语言数据：可以使用开源 NLP（自然语言处理）软件

统计词频有困难？ Overview project 可以显示文本最常用的词和它们的词群分布
想以图解的方式查看文本检索结果？文本搜索工具 Jigsaw :（非开源软件，但可免费下载）可统计文本中最重要的人物、地点、组织等实体的出现频率，并将他们之间的关系以列表、图表、时间表和关系图的形式呈现出来，提高文本分析效率。

如果你觉得不够，那么还可以推荐：