数字复数

2020-04-11 原文 #Nei.st 的其它文章

数据是更像石油还是更像阳光?​​​

狂热的语法学家已经为「数据」究竟是单数名词还是复数名词争执了很久 (与普遍用法相反,本刊在此暂时认同后者)。一个更好的问题是,数据何以如此独一无二地显现为复数?我的意思是,为什么它们有这么多张不同的面孔?

要找到答案,我们可以从用于描述数据流的诸多比喻出发。一开始,数据被比作石油,言下之意它们是未来的燃料。后来,它们被比作阳光,因为很快它们就会像阳光一样无处不在,成为一切的基础。也有人说数据是基础设施:应该视它们为公路或铁路的数字孪生体,需要公共投资,也需要新机构来管理。

比喻的增多反映出数据经济形态的可塑性。首先,它们是「非竞争性的」:由于无限可复制,许多人都可以使用它们,并不会因此而限制其他人的使用。但它们也是「可排他的」:加密之类的技术可以控制谁有访问权。实际上,取决于你把「加密滑动条」放在哪里,数据确实可以是如同石油的私人物品,或是如同阳光的公共物品——也可以是介于两者之间的东西,有人称之为「俱乐部物品」。

这反过来意味着数据经济不止一种,而是或多或少可以区分开来的三种,每种都有自己的意识形态。而核心问题,是否会有其中一种占据主导,还是说,镜像世界会像真实世界那样是它们的混合体。

如果说石油仍是最常用的比喻,那是因为把数据比作这种黑乎乎的东西是一种最容易的联想。和石油一样,数据必须经过提炼才有用处。在大多数情况下,它们需要被「清洗」和「标注」,也就是筛除不准确的数据,并为视频等材料中看到的各种元素做标识。这催生了一个全球性行业,雇用了数十万人,其中大多数人在低薪国家。位于旧金山的创业公司 Scale AI 在世界各地雇用了三万名标注工人来查看无人驾驶汽车生成的影像,以确保这家公司的软件正确分类了房屋、行人等物体。

在数据能够驱动人工智能 (AI) 服务之前,还需要把它们输入算法中,教它们识别人脸、操控无人驾驶汽车、预测喷气发动机何时需要检修。而要生成统计模式往往需要综合不同的数据集。以喷气发动机为例,把使用状况数据和天气数据聚合起来有助于预测磨损。

石油的比喻之所以合适,还因为某些类型的数据以及从中提取的见解已经在广泛交易。在线广告可能是最大的个人数据市场:根据每个用户的详细数字资料来买卖点击。咨询公司思略特 (Strategy&) 的数据显示,2018 年该市场的全球价值为 1780 亿美元。数据经纪人可以为每个人跟踪数千个数据点,它们的个人信息业务也很红火。思略特称,它们将这类数据出售给从银行到电信运营商的各种机构,年收入超过 210 亿美元。

提供挖掘数据所得的见解也可以非常有利可图。在谷歌旗下的机器学习竞赛网站 Kaggle 上,成千上万个数据科学家团队参赛,看谁能拿出最佳算法来预测建筑物的能耗或识别「深伪」视频,有时奖金超过 100 万美元。这也是 Facebook 和谷歌的赚钱方式。它们几乎从不出售数据,但出售谁是最佳广告目标的见解。

不过,数据没能像会议组织者兼智库「世界经济论坛」在 2011 年预测的那样,成为一种「新资产类别」。大多数数据从未易手,那些努力让它们变得更易于交易的尝试也没能大行其道。为改变这种局面,特别是在欧洲,制造商正在推动取得自家产品生成的数据的产权。还有些人则希望让消费者拥有自己生成的数据,这样他们就可以出售数据,从自己的信息中分得更大的一杯羹。

经济运作方式又一次挡了路。尽管数据常被视为大宗商品,但企业数据集尤其不易互换利用。它们的收集方式、目的和可靠性各不相同。这使得买卖双方难以就价格达成共识:各个种类的数据的价值难以比较,且会随时间变化。交易的另一个障碍是数据集的价值取决于谁控制它。对一家公司是垃圾的数据对另一家却可能是黄金。「数据没有真实价值。」剑桥大学的黛安·科伊尔 (Diane Coyle) 表示。

至于个人数据,要界定产权很难,因为很多信息无法归属到某一个人。例如,谁拥有约会网站匹配了一对情侣这一事实?这对情侣自己吗?还是网站?让事情变得更复杂的是,数据具有大量外部性,包括正面和负面的,这意味着市场经常失灵。例如,如果一个社交网络可以通过处理其他用户的数据来做出关于某个人的相当准确的预测,那么它为什么还要购买这个人的数据呢?

尽管数据很可能永远都不会像石油那么广泛地交易,科技公司仍然在努力把这件事变得更容易。电子商务巨头亚马逊的云计算部门 AWS 最近就推出了一个交易市场,希望让数据交易变得尽可能容易。它的运作有点像智能手机的应用商店:买家订阅数据流,同意许可条件,AWS 处理付款。

轻盈的,而不是黑乎乎的

随着石油的比喻日渐被视为有问题,与阳光或类似的资源 (如空气和水) 的类比越来越受欢迎。许多喜欢这种比喻的人问,如果数据并不那么适合变成一种可交易商品,那为何还要费劲去尝试呢?确保它尽可能多地被利用不是更好吗?毕竟这会使社会财富最大化。换言之,没人会挂起窗帘,试图叫卖阳光。

这套论述已经催生了「开放数据」运动。其拥护者敦促各种组织和大学院校交出数据,以让它们可被广泛利用——比如被创业公司使用。如今,大多数国家或地方的政府都在吹嘘某个开放数据项目,尽管这些被开放的数据的质量差异很大。

后来,企业也开始公开自家数据了。几家研发无人驾驶汽车的公司共享了自己的车辆收集到的部分信息。谷歌母公司 Alphabet 是其中之一。它旗下的 Waymo 公司的首席科学家德拉戈默·安戈洛夫 (Dragomir Anguelov) 说:「若要让研究人员能提出正确的问题,他们需要正确的数据。」其他公司正在研究能让这种数据共享变得更容易的技术。微软等软件制造商将很快开始实施微软所说的「开放数据计划」。

一些人将这种努力视为数据开源运动的开始——很像如今统治了软件行业大部分的开源运动。微软对此尤为热衷。公司总裁兼首席法务官布拉德·史密斯 (Brad Smith) 在他最近出版的《工具和武器》(Tools and Weapons) 一书中写道:「我们需要让人工智能及其依赖的数据民主化。」自然,这种立场带着些利己的气味:微软并不直接从数据中赚多少钱,它从处理数据的工具和服务中赚钱。

然而,就像石油的比喻一样,阳光的类比也出了问题:开放数据的范围同样有限。对于个人数据,主要的限制是日益严格的隐私法,例如欧盟的《通用数据保护条例》(GDPR),以及将于 7 月开始实施的《加州消费者隐私法》(CCPA)。对于公司数据而言,设立关卡天然就更经济:生成优质数据的成本高昂,它们还可能过多地泄露了一家公司产品的信息。咨询智库麦肯锡全球研究所的迈克尔·崔 (Michael Chui) 解释说:「企业将就哪些数据集要公开、哪些要保密做出非常战略性的决策。」

要把可以安全共享的内容与应严格保密的内容剥离开来会很棘手。不过,假以时日,技术进步应该会让这类决策变得更容易。例如,一种叫「差分隐私」的技术可把一个数据集替换成另一个包含不同的信息,却具有相同统计模式的数据集。「同态加密」则让算法无需解密数据就能分析处理它们。还有区块链这种作为许多数字货币底层技术的特殊数据库,它使人们和企业可以细致入微地管理谁能访问哪些数据并追踪这些访问。

这些技术正在慢慢铺开。直至去年一直受欧盟资助的项目 DECODE 集结了多种技术来创建工具,让人们可以掌控他们对噪音水平和空气质量这类周遭环境生成和收集的数据。这些工具正在阿姆斯特丹和巴塞罗那测试。旧金山另一家创业公司 Oasis Labs 为健康数据创建了类似的工具。它的首个服务即将推出,让用户可以把遗传信息捐赠给研究项目。

这样的数据分割技术有利于那些把数据比作基础设施的人。总部位于英国的研究机构开放数据研究所 (Open Data Institute) 负责人热尼·腾尼森 (Jeni Tennison) 说,你必须走过很多条数字公路,结合许多数据集和数据流,才能获得新的见解。它们当中有些会是私人收费公路,另一些是多车道公共高速路,但它们大多需要按共享数字资源来运营,由一个用户「俱乐部」管理这些资源。

但是,仅凭技术还不足以创造这些「俱乐部物品」。他们还需要机构来提供腾尼森所说的「数据看管」。数据信托、数据合作社、个人数据商店在细节上各不相同,但思路是基本一致的:它们提供了一种治理结构,在组织对数据的访问时把某类特定数据的生产者和使用者的利益考虑在内。

目前尚在发展初期,但这类数据俱乐部已经开始在许多地方涌现。瑞士的 MIDATA 合作社收集并管理会员的医疗数据。台湾的「数字政务委员」唐凤创建了一个仍在进行中的「总统杯黑客松」来建立「数据协作社」,包括几个针对环境数据的协作社。芬兰具政府政策功能的国家研发基金 (Sitra) 发起了类似的竞赛,以帮助发展「公平的数据交换」。

旧大陆上的新事物

大多数项目的规模仍然很小,而且由公家资助,这让人们怀疑它们是否真的会成为数据经济的重要组成。但 DECODE 项目的创始人弗朗西丝卡·布里亚 (Francesca Bria) 说,它们是否成功是一个政治意愿问题。她认为,城市尤其需要创建替代方案来取代那些把收集到的数据据为己有的大型在线平台。这位巴塞罗那前首席技术官把这座城市变成了一个展示可能性的典范,如今已被复制到欧洲其他地方。巴塞罗那市民不仅可以控制该市拥有的有关他们的数据,并且提供数据的各方还必须添加它们在向这片「城市数据公地」提供服务时收集到的数据。

鉴于它们各自的局限性,三类数据经济无一将占据主导,但它们会有各自的据点。在美国,人们把数据等同于石油来处理:谁提炼它们,谁就拥有它们。中国是数据成为公共物品的极端例子,尽管它拥有阿里巴巴和腾讯这样数据量极大的在线平台。这里的数据最终受政府控制,政府正在推动企业合并某些类型的数据,比如医疗健康数据。在欧洲,许多监管机构开始把数据视为基础设施。布鲁塞尔的新一届欧盟委员会制定了支持创建数据信托的大型计划。

听起来,欧盟似乎是要自我加害,继续做一个技术落伍者。但这并不是必然的。为芬兰的国家研发基金撰写报告的联合作者卢卡斯·伊尔维斯 (Luukas Ilves) 说,一种「公平的数据经济」把公民和消费者这些将为未来生成大量「燃料」的人的利益考虑在内,可能具有相当大的竞争力。如果民众和企业能够信任欧洲的数据基础设施,他们会愿意共享更多、更好的数据,这继而又会给每个人换来更好的服务。如果这样一个「良性循环」真的腾飞了,那将是旧世界命运的一次大逆转。

Related


文章版权归原作者所有。
二维码分享本站