民间数据库和处理分析工具:挖掘黑钱、腐败、有组织犯罪、离岸公司…… - iYouPort
民间数据库和处理分析工具:挖掘黑钱、腐败、有组织犯罪、离岸公司……
独立调查报告需要更专业的水平、更高的技术能力和更多的经验。从哪里收集有效数据?如何抽取、筛选、整合、分类大量琐碎的信息?如何分享、存储数据,并实现随取随用?本文整理了一套数据收集和处理工具的清单,分为八大类都是*工具*,发挥您的创意
独立调查报告需要更专业的水平、更高的技术能力和更多的经验。从哪里收集有效数据?如何抽取、筛选、整合、分类大量琐碎的信息?如何分享、存储数据,并实现随取随用?这里整理了一张数据收集和处理工具的清单,分为八大类,方便实用,各有所长。
另外,一些记者或者新闻机构建立的“民间数据库”,摆脱了政府网站的造假可能,协助深度调查工作的开展。公民社会组织也可以以这些资源为线索,使用我们早前提供的工具,进一步深入开源调查 #OSINT 。
下面分头介绍。
1.全文本搜索和挖掘的引擎:
包括:搜索方法、技术:全文本搜索, 信息检索 , 桌面搜索 , 企业搜索 和 分面搜索
开源搜索工具:
- Open Semantic Search :专门用于搜索自己文件的搜索引擎,同样的还有 Open Semantic Desktop Search :可用于搜索单一一台笔记本电脑或单一用户的文件资源。
- InvestigateIX : 用于搜索加密外部设备
- Recoll : 适用于 Linux 系统的桌面搜索引擎
- Fuzzy search with lists :清单搜索、模糊搜索
搜素数据库和 API
- 如果你想编程,可以试用以下强大的搜索引擎: Solr 和 Elastic Search ,支持索引和 API 搜索,更多全文搜索、实时检索、数据分析、多格式数据读取(JSON, SML, CSV 或 HTTP)等强大功能有待开发。
2.数据库、数字文档、数据管理系统、文件管理系统和内容管理系统:
- 不同格式的脚注、尾注、文中引用和文献参考很麻烦?资源整理工具 Zotero 的标注和引用功能可以解决难题。它可以在 Word,Open Office 添加引用,在 Google doc 和电子邮件中插入文献参考,或者为数据库添加标记。
- LibreOffice Calc :开源表格程序
- Document cloud :文档管理系统,管理纸质文件扫描版本或者 PDF 格式文件
- Semantic MediaWiki : MediaWiki (著名开源引擎,可用于构建企业/个人知识库,维基百科就是使用 MediaWiki 的成功范例)的免费开源扩展,可供用户存储、调用数据
- Drupal CMS :内容管理模块,可以让你快速便捷地以用户界面创制自己的内容格式、数据字段
- 想从大量文件中单独抽取金额来分析?专业的文件管理系统 Agorum 可以自动从账单抽取金钱数额。
- 想标记图片中的文字? Pundit 帮你办到,它同时支持文本和图片标记。
- 想在网站加注释? Annotator.js 在任何网页加注释,而且可以添加评论、标签、链接、用户或者更多不同种类的信息,第三方插件还能帮你在难以搞定的 PDF、EPUB、视频、图片、声音甚至更多格式的文件上添加标注。
- 标注了信息,想收到更新提醒? Hypothesis 可供用户订阅一系列已标注的活动信息,而且能按照自己的兴趣获取通知,而且还能分享评注、链接词典。程序员还可以获取有限的网站许可,通过第三方应用创建、更新、删除、搜索注释。
3. 文本文件挖掘、分析
- Text mining tutorial: How to analyze large document collections :文本挖掘教程:如何分析大容量文件集(使用 Open Semantic Search 来挖掘文本)
- Understanding language data : 理解语言数据:可以使用开源 NLP(自然语言处理)软件
- 统计词频有困难? Overview project 可以显示文本最常用的词和它们的词群分布
- 想以图解的方式查看文本检索结果?文本搜索工具 Jigsaw :(非开源软件,但可免费下载)可统计文本中最重要的人物、地点、组织等实体的出现频率,并将他们之间的关系以列表、图表、时间表和关系图的形式呈现出来,提高文本分析效率。
如果你觉得不够,那么还可以推荐:
- Wikipedia list of open source text mining software:维基百科上整合的开源文本挖掘软件列表
- Tapor : 研究专用的文本分析门户,提供大量文本分析工具,可以按照类型或标记找到最适合的一款。
4. 图表和关系网络分析(SNA)
帮助分析关联并将其可视化的工具:
- Cytoscape.js : Javascript数据库,能将关系网、事物分属和图表可视化
- Semantic Mediawiki :上面介绍过,不仅是数据库,也是适用于关联数据、非常灵活的内容管理系统
- Detective : 以 Python/Django 和 neo4j 图像数据库为基础的内容管理系统,适用于分析关系。
5. 抽取、转换数据
包括数据整合、抽取、转换、转移、ETL(数据提取、转换和加载)网络爬虫采集等等
从文件抽取结构化数据:
- Tika content analysis toolkit : 从文档和文件抽取文本和元数据
- CSV Manager :将 csv 表格输入 Solr 为基础的搜索引擎
- 想从 PDF 文件抽取数据、转化为可编辑的文本?免费软件 Tabula 可以直接从 PDF 文件抽取数据表格。
- 图片识别和文本扫描: 光学字符识别(OCR)
从图片识别文本(OCR)
- Tesseract : 光学识别软件,从图片识别文本
- 低质量扫描没法看? Scantailor 帮你分页、矫正文本、添加/删除页边,可以将原始文本传换成 PDF 或者 DJVU 格式的文件,便于打印。
从声音识别、抽取文本:
- CMU Sphinx : 开源声音识别工具,支持英语、法语、中文、德语、荷兰语、俄语。该开发商还提供关键词识别和读音识别等实用工具,可以多多关注。
从网站抽取数据(网络信息采集/网络爬虫)
6. 输入、修改、转换数据
- 将数据转换成纯文本的超强工具: Tika content analysis toolkit
- 将数据转换成其他格式的工具: Talend Open Studio 和 Kettle
编写文件和删除元数据!
🔐为了保护信息,往往需要编写文件、清除敏感文件、删除隐藏在文件或图片里的元数据,例如软件的序列号或软件、用户名,以下工具可供参考:
- PDF Redact Tools : 以最安全的方式删除 PDF 中的元数据
- MAT: Metadata Anonymisation Toolkit :从不同的文件格式和图片格式中删除元数据
7. 统计与分析
- 开源表格程序 LibreOffice Calc
- 上面介绍过的 HUE Solr search 和 Kibana for Elastic Search ,除了能检索数据库和 API,也能完成数据分析
- 适用于数据分析和计量经济分析的专业电脑程序: Statistical software
- 统计和分析的工具大全: Business Intelligence
- 用 R 、 Python 或其他编程语言编程分析数据
以上数据分析太复杂?刚入门,想理解数据分析原理?推荐阅读解释数据挖掘方法的书 Mining of massive datasets (该链接能下载免费 PDF 格式)
8. 通用开源软件工具包
最强大的通用开源工具包,例如 Debian GNU/Linux 或 Ubuntu Linux,涵盖了成千上万个免费软件和开源工具、软件数据库和编程语言。
运行时,用户无需移除现有的操作系统:安装适用于 Windows 和 Mac 的 Virtual Box ,你就可以在现有操作环境下的单独的窗口运行上述 Linux 软件。
以下是一些全球性的数据资源库,对于特殊的深度调查来说,它们不是终极答案,但能是很有效的线索信息。调查是一个系统性的工作,就像搭木板桥那样,其中每一块板都很重要。
1. OCCRP’s Investigative Dashboard
△ 网址: data.occrp.org
OCCRP 是一个致力于报道世界各地有组织犯罪和腐败行为的非营利组织,而这个网站是他们建立的一个在线资源中心。
在这个网站里,你可以找到 93,801,673 (不断更新中)条法庭记录、法律条款、研究报告等文件。
2. ICIJ’s Offshore Leaks
△ 网址: offshoreleaks.icij.org
ICIJ (国际调查新闻工作者联合会)由超过 65 个国家的 190 多名调查记者组成。
他们根据自2013年至今多个 “离岸泄密” 调查的资料,建立了一个涵盖 32 万家离岸公司的公共数据库。
△ 网址: opencorporates.com
这个我们曾经介绍过。“全球最大的开放数据库”,里面包含了 1.38 亿家企业和 1.76 亿员工的信息,而且还在不断更新。
5、Global Open Data Index
△ 网址: index.okfn.org/dataset/
这里集合了各国的政府公开数据,比如政府预算、国家法律、空气质量、水质等等。
6、Open Data Inception Project
△ 网址: opendatainception.io
世界各地近 3000 家开放数据门户网站,可以在地图上选择不同的国家查看。中国有十几个网站被收录。
8、IATI registry
△ 网址: www.iatiregistry.org/
IATI 是一个致力于国际援助款透明化与开放化的研究机构网站,目前有 5760 个数据集。如果你想了解国际援助方面的数据,这个网站很有用。
相关
- Tagged
- OSINT
- tech
- technique
- Technology
- tools
文章版权归原作者所有。