河流需要水坝

机器学习如何彻底变革市场情报业

泰晤士河似乎很吸引情报收集人员。军情六处的间谍们就在俯瞰泰晤士河的一栋外观怪异的建筑里工作。往下游两英里处，黑修士桥附近的一个共享办公空间里有一家名为 Arkera 的公司，它利用机器学习技术为新兴市场的投资者从报纸、网站和其他公开来源中收集情报。这个选址纯属巧合。伦敦的时区很理想，在美洲和亚洲之间。这是个适合居住的好地方。而泰晤士河恰好横穿伦敦。

Arkera 的创始人纳夫·古普塔 (Nav Gupta) 和维尼特·萨尼 (Vinit Sahni) 都有「宏观」对冲基金的背景，这类基金喜欢抢在预计将出现的政治气候变化发生前押注货币、债券和股票价格的大幅波动。该公司的客户也许想就影响巴西公共财政的政治风险寻求建议，或是想评估埃及财政紧缩计划可能会令社会压力增大几何。它利用机器学习发现市场情报并为己所用。

对许多人来说，在金融领域运用这类技术就像是反乌托邦科幻故事里机器胡作非为的情节。不过一旦用计算机科学的眼光看待市场情报，就会激起另一种令人不安的想法。它让人感到老式的、模拟时代的情报收集方法是多么老掉牙又杂乱无章。

一个多世纪以来，分析师一直利用文本数据来尝试预测资产价格的变化。1933 年，经济学家阿尔弗雷德·考尔斯 (Alfred Cowles)(他的祖父创办了《芝加哥论坛报》) 发表了一篇这方面的开创性论文。考尔斯将长期担任《华尔街日报》主编的威廉·彼得·汉密尔顿 (William Peter Hamilton) 的股评分为三类 (看涨、看跌或难以确定)，并且附上了每一类股评对应的行动 (买入、卖出或不碰)。他的结论是，投资者如果只是简单地买进并持有道琼斯指数中的龙头股，会比追随汉密尔顿的选股建议效果更好。

将机器学习模型应用于文本数据似乎与考尔斯的方法相去甚远，但在概念上是相似的。寻找相关的文本，对它们赋值，再应用某个统计模型，反复测试其预测结果的准确度。当然，有了强大的计算能力和一系列的自学习模型，这种预测与考尔斯简陋的操作已经不可同日而语。互联网的无边无际意味着如今的原始资料要丰富得多。可能赋给这类资料的值的范围也比「看涨、看跌或难以确定」广得多。而自学习算法可以测试并重复测试出产生最佳预测的组合。

人们很容易把注意力集中在这套系统的黑箱元素上：「读取」源文本的语言软件，以及利用数据来做预测的算法。但这就像用音箱来评判整套高保真音响系统的好坏一样。在这个过程中，许多重要的工作都做在了前面。例如，Arkera 花了大量的精力找寻所有相关的文本，并对其进行「清理」，即去除诸如图说和免责声明等无用信息。「良好的信号至关重要。」古普塔表示。

他以巴西的养老金改革为例。巴西有 513 名议员。他们有社交媒体账号、网站和博客。他们对媒体发言，而巴西有很多地方报纸。这些都可能成为有用数据的来源。如果你在这个阶段图省事，可能就会错过一些东西，之后即便用最好的统计模型也无法修正。这就像如果电唱机上的唱针坏了，配一个很酷的功放和很棒的音箱也没什么意义。

任何一个优秀的新兴市场分析师都知道这一点。如果你在去年巴西大选后不久就碰到这样一位分析师，他可能正在去巴西利亚的路上，想要探询一项至关重要的养老金改革的前景。不改革，巴西的公共债务势必激增，引发资本外逃。7 月，巴西众议院终于通过了一项养老金法案。Arkera 的模型追踪了巴西政客的倾向，提前预判了可能的结果。一个分析师若没有任何辅助手段，即便他成日深入现场调查并且能说一口流利的葡萄牙语，也很难做到这个程度。

情报收集是一项劳动密集型工作，因此自动化的时机已经成熟。它发生在金融业也很自然。那里有明确界定的目标 (赚钱)、明确界定的终点 (买进、卖出或不碰)。没有这样明确的目的性，情报就是一条无尽的河流。没有水坝拦截，一条接一条地流下去。

觀點2

河流需要水坝

河流需要水坝

#Nei.st 的其它文章