新 AI 组装线

整合数据越来越困难，但也越来越重要

极客们并不以擅长作诗闻名。但有时候，比如在尝试描述处理数据的主要困难的时候，哪怕是这些人的语言也很有一套。他们说，难点在于寻找「唯一版本的事实」。

这也很好地描述了企业信息技术 (IT) 自 60 年前出现以来的工作目标。而且这个巧妙的表述还概括了数据经济中企业的主要压力：寻找数字真相 (即识别和融合准确反映现实的数据) 变得愈发困难和重要。愈发困难是因为数据和数据源都在成倍增加。愈发重要则是因为公司需要把自己的数据仓库打理好才能从 AI 中受益，而这是保持竞争力的必需。咨询公司麦肯锡最近一项调查显示，AI 可以增加收入和利润 (见图表)。

所幸，技术来帮忙了。数据处理软件和云计算正在日益实现「AI 组装线」(AI-ssembly line)。IT 行业投资者和资深观察家乔治·吉尔伯特 (George Gilbert) 创造的这个词暗指了 100 年前发生的事，当时电力取代了蒸汽，成为工厂的主要动力来源。过去，机器必须紧密围绕动力源也就是蒸汽机来布局。然后，电力可以把能源输送到任何需要的地方，让装配线变得可行。但是，现在发生的事情实际上是相反的：数字时代的机器 (公司的业务应用程序和构建这些应用的软件) 正在围绕着一种新的动力源 (被称为「数据仓库」或「数据湖」的中央数字存储库) 进行虚拟重组。假以时日，这可能会让公司得以建立完整的数字孪生体。

数字真相很难找到，因为数据有许多来源，并且格式五花八门，使得它们难以集成。哪怕是客户姓名这么简单的东西也可以用许多不同的方式定义和存储。公司可能拥有数千个软件应用，每个都有自己的数据库。成批的首席信息官因没能成功地把这些数字存储库整合或连接起来而丢了工作。

当 IT 的存在主要是为了跟踪公司的「交易」(例如处理订单或管理供应链) 时，集成数据已经是一个大问题。打那时起，它就只会变得越来越困难。在 1990 年代，公司开始使用自己的数据自我评估业绩，也就是所谓的「分析」。十年前，它们转向挖掘数据来对业务进行预测，这种方法最初被称为「大数据」，现在被称为 AI。如今，公司的数据通常不仅散布在许多本地数据库中，而且还存在于不同的云服务中，并从第三方和联网设备不断流入。

正是数据仓库和数据湖让数字资源的使用变得更加容易。它们在组织信息的方式上有所不同——前者比后者更为严格，但差异越来越小。两者现在都可以存在于云中。这不仅使它们的管理成本更低，而且可以更轻松地输入来源多样、用户众多的数据。创业公司 Snowflake 就是如此，它把自己的数据仓库变成了可以跨越多个计算云的所谓「数据平台」。诸如亚马逊的 AWS 和微软的 Azure 之类的大型云供应商都提供类似的产品。

第二个改进是处理某些类型数据的专用数据库。创业公司 Confluent(「合流」，名字取得挺恰当) 的首席执行官杰伊·克雷普斯 (Jay Kreps) 解释说，由于数据通常不再以静态块的形式，而是以实时数字流的形式出现，它们必须被区别对待。该公司销售基于开源程序 Apache Kafka 的云服务，分析这些数据流并将其转存到各个数据湖中。德国企业集团博世使用 Confluent 的服务从电动工具中收集和挖掘数据，用以管理维修服务和建筑工地。

然而，将所有这些变成了吉尔伯特所说的「AI 组装线」的是第三组软件和服务。这些工具中，有一些可以整理数据以备分析，有些可以轻松设计和训练 AI 算法，将其部署到应用中自动执行决策并不断改进。意大利国家电力公司 (Enel) 已使用此类工具开发了一项服务，帮助它确定需要追捕的头号偷电贼。壳牌石油公司设计了算法来确保其成千上万种备件在世界各地始终有货。非营利贷款公司 Kiva 与 Snowflake 合作建立了一个数据仓库，使它可以更好地决定应该放款给谁。

许多别的公司就没这么幸运了——它们忘记了技术永远只是解决方案的一部分。AI 能提高利润的研究激励了它们，或者有时是因为恐惧被创业公司颠覆，一些公司试图自己拼凑出一条 AI 装配线，却失败了。它们没有适合自己业务的程序员和数据科学家，或者不想支付高昂的薪水。这为 IT 供应商提供了销售在某种程度上预制好的 AI 流水线的机会，但每种流水线的着眼点都不同。

同时，在炼油厂

先说老企业，它们正在努力发挥自己的优势。就拿老祖宗 IBM 来说，这个优势就是服务。它帮助企业构建即将成为新任老板的阿文德·克里希纳 (Arvind Krishna) 所说的「数据平面」，即用于开发 AI 应用的一系列程序。它本身也成了数据炼油厂：例如，它收集和销售精细的天气数据，保险公司可拿来计算费率，公用事业公司可拿来预测可能发生停电的地点。它还提供了视觉识别和翻译等一系列 AI 服务，其他公司可以直接将它们插入自己的产品中。

世界领先的关系数据库供应商甲骨文仍然是企业 IT 的主力军，其目标是通过提供所谓的「自治数据库」来强化这一地位。这种类型的服务将各种数字存储库以及零星的 AI 组合起来并自动化，这样客户就用不着自己去组合所有这些程序了。「这是包含许多数据引擎的单个引擎。」该公司的高级数据策略师保罗·桑德雷格 (Paul Sonderegger) 解释道。他补充说，这种集成对于提高公司的「数据生产率，即增加每个数据输入的美元产出」至关重要。

至于年轻的 IT 公司，它们也在提供越来越多的服务，帮助企业把数字事务安排妥当。Salesforce 从提供管理客户关系的网络服务起家，它在过去两年中花费了数十亿美元来开发自己的 AI 技术「爱因斯坦」，并收购了两家大数据公司 MuleSoft 和 Tableau。Salesforce 的总裁兼首席运营官布雷特·泰勒 (Bret Taylor) 表示，公司的思路是让企业能把数据整合并连接起来，以便对自己的客户「一目了然」。这让企业可以更轻松地预测客户的行为，提供个性化服务，并且无论客户出现在零售店还是网店都能识别出来。

然后还有大批较小的公司。Databricks 建立了一个 AI 平台，搭配了用于清洗数据、构建和部署算法的工具。C3.ai 提供类似的功能，但主要目标是帮助大公司进行数字化转型。Qlik 以分析和数据可视化闻名，但最近已进入 AI 领域。

市场调研公司高德纳的黛布拉·洛根 (Debra Logan) 表示，尽管有这些工具，但许多 AI 项目仍然令人失望。一个大问题是数据孤岛，这反映了企业的内部边界。企业中的各个部门害怕失去权力，不愿意共享数据或改变收集的内容和方式 (这也说明，数据结构通常只是权力结构遮上了一层薄薄的面纱)。这使许多公司无法制定连贯的「数据战略」，以确保它们真正能收集和分析实现业务目标所需的信息。

为了克服这种数字分隔，一些企业进行了组织调整。越来越多企业任命了「首席数据官」，他们可以把人们聚在一起，确保 IT 部门和业务部门能够合作，而这对于建立类似于 AI 装配线的任何东西都是必不可少的。但是，如果公司的其他成员还没有做好准备，那么高层以及技术方面的变革就没有多大价值。根据高德纳最近的一项调查，「数据素养不佳」是公司数据项目的第二大障碍，仅次于「接受变革的文化挑战」。Qlik 首席技术官迈克·波特 (Mike Potter) 表示，改变这一点并不意味着所有员工都必须成为数据科学家，而是要对数据可以用来干什么、不可以干什么有基本的了解。

他认为，数据永远都不是中立的，必须始终受到质疑：收集它们可能是出于政治原因，又或者收集的方式会隐瞒某些事情。「我们都认为数据是如此客观，」他说，「但实际上它们和莎士比亚一样，可以有很多种解读。」尽管有了这么多技术，但「唯一版本的事实」可能永远都不会有。

觀點2

新 AI 组装线

新 AI 组装线

同时，在炼油厂

数据经济：镜像世界

经济形态：数字复数

政策：获奖者是……

#Nei.st 的其它文章