利求同:神奇大数据
利求同:神奇大数据
现在这个世界是媒体的游戏场,有一种游戏唤作“年度词”提名。二〇一二年获提名的一个词叫“大数据”(Big Data),拿着一条响当当的理由:大数据将彻底改观人类文化!
这是何方大圣,竟有如此神力?顾名思义,大数据意味着海量的数据,“海”得远远超出了常规数据管理工具和系统的处理能力,乃是数码互联网技术一个最新动态。不用说,网络早已俘获了我们:从手机短信、刷卡吃饭、缴费、购物,到人肉搜索、QQ聊天、微博围观,日常生活当中哪一样便利甚至习惯,没有一步一个脚印,留下我们的电子行踪?这一切,都是有用的信息,时时被网络服务商、销售方和相关政府监管部门记录在案。为了利用这个巨量的数据集,人们在统计学和决策学等研究的基础上,模拟大脑思维和学习模式,创造出专门的分析工具,编制成算法软件。借助计算机的强大信息处理能力,对大规模数据做细致的梳理归纳。这样,在仿佛随机无序的庞大数据集里,发现人的行为的内在模式,建立事物间的相关性;进而甄别、推断并给出预测,支持决策和行动计划;并通过学习与再学习程序,求得结果的不断优化。可以说,大数据所到之处,一切思路和方法全要更新。
大数据之新,新在以“量”取胜,靠的是前人难以想象的数据量,以及超级的信息分析处理的能量。我们知道,人做事离不开信息分析。小到出门应否带伞,大至卫星如何成功进入轨道,无论个人集体、有意无意。而信息分析能否有所发现、预测正确与否、决策是好是坏,这个“质”的问题往往取决于“量”。 一般说,信息量越大、分析工具越精,预测跟决策的品质就越好,行动就越是近于成功。
因此,大数据魅力四射,让各行各业趋之若鹜也就不奇怪了。通过大数据,药学家可以更便捷地测定药物的交叉反应;气象学家更准确地发布预报;商家能及时解读看似杂乱无章的消费者行为,诱导购买;犯罪学家创建了算法犯罪学,用来预防并惩治犯罪,等等。美国自然是这风潮的引领者。去年大选,据报道,奥巴马总统便是借了大数据的光,才获胜连任。
事情是这样的。美国人常说,总统竞选由捐款额决定胜负。奥巴马的竞选班子则聪明地意识到,信息社会要利用信息优势。于是,早在二〇〇八年,他们就悄悄布下一场大数据战役,确定了竞选纲领,力争举棋不定的选民和捐款大腕。拉选票,其实就是做选民的思想工作,有的放矢地说服他。但过去这工作没法做得太细,选民那么多,民情常在变,往往只能大略估计。来到互联网时代,办法就多了。总统的班子从选民登记、电话民调、博客、推特、社交与视屏网站、用户行为的电子轨迹等入手,收集信息,为每一个争取对象建立了有八十来个信息点(变量)的个人档案,包括年龄、性别、种族、职业、教育背景、投票历史、电视习惯,诸如此类。然后用专门编写的大数据算法分析这些数据,推测选民的立场,关注什么,担心什么,直至潜意识中最可能感动他的东西。这样,数据库里的选民便有了血肉,活了。就拿筹款活动来说吧,跟总统晚宴是少不了的,四万美元一张餐券,邀请信美轮美奂,内容更见功夫。竞选班子根据大数据分析结果,为受邀者量体裁衣。对于关心儿童和青少年教育的人士,邀请信会注明晚宴主持人的母亲身份;对爱好文化艺术的,就安排表演节目或知名学者讲话;而对“追星族”,则必有好莱坞或体育明星捧场。结果,奥巴马一举创下了十一亿美元的募款纪录。
当然,大数据的功效不只是争取个体选民,还能够处理像竞选基调那样的大局问题。通过梳理个人信息,大数据可以将选民对各个竞选议题和政府政策的看法归类,测量诸如“满意”“失望”“观望”“其他”等不同态度的选区分布和变化趋势,并据此制定合适的竞选口号。更为关键的是,这竞选大数据计划保持着全程动态,每一次竞选活动得到的反馈,都及时输入数据库,保证档案能准确反应选战的最新发展。必要时,还能激活自学程序,实时调整算法,让决策和行动紧跟形势。实际上,此次大选两党的募捐都很成功,都有用不完的钱。但是,共和党的竞选班子太愿意相信媒体发布的孤立的民调数字,反而迟钝了对选民的感觉。直到离投票日只有几个月了,才意识到对手大数据战略的厉害。这时,追赶已经来不及了。奥巴马的成功连任,分析家都说,大数据功不可没。
的确,大数据有居功的本钱。它的预测和决策精度可以达到85%以上。换言之,它使得成功的预测不再是随机、难以把握的任务,而是建立在科学方法和巨量数据基础上,具有极高的连贯性和可预期性。大数据成了信息时代的预测权威。我们接受它的结论,遵循它的指导,几乎是下意识的。因为大数据无孔不入、无时不在,能量超凡,让人自愧弗如。人类受自身生理器官和认知能力的局限,只能收集处理极其有限的信息。几千年来,人类一直致力于信息工具的改进与革新,如印刷术、图书馆、档案馆等,不断突破自身和材料、技术条件的限制,拓展信息知识的利用。但这些进步并没有改变预测决策的常态:信息缺失,寓意模糊,分析工具的处理能力不高。预测往往不甚可靠,每每失误、丧失机会而浑然不知。直到数码互联网技术的发明,天地才豁然开朗。现在我们可以一刻不停地四处收集信息,记录下信息源的一举一动、社会生活和自然现象的分分秒秒。这样一来,收获积累的数据量以天文级数激增,仅二〇一二年就高达3ZB(10的21次方),预计二〇二〇年将突破40ZB。人工智能和决策研究领域开发了种种分析方法和理论,加上计算机动辄每秒上亿次的处理能力,算法如虎添翼。于是大数据时代的一个特点,便是人们不愿意再容忍信息短缺,或是靠个人的经验智慧来预测、做决断。决策者不仅要求数据说话,而且期待由巨量的动态中的数据来说话。这将成为决策的基本要求。难怪有分析家大胆宣布:大数据预示着“理论”的终结。我想,这是因为我们的天性喜欢 “量”决定“质”,觉得大数据是实时实地的记录,因而真实可靠;它的分析工具来自集体的经验和智慧,富于专业理性;而由计算机来执行,就近乎零差错了。大数据带着我们梦寐以求的品质,让人不得不信服,难以抗拒。
然而,大数据并非如我们想象的那么完美;毕竟,它是人类而非神的创造。正如哥伦比亚大学媒体创新研究所的汉森(Mark Hansen)所长指出:数据承袭了人类的所有缺陷。它不是万能的,只是我们的延伸。故而,使用大数据如稍不当心,那些缺陷便会带来失误。怎会是这样的呢?让我们考察一下大数据的几个要件,就不难理解了。比如数据,总是已经发生或存在的人和事的记录,其语义依赖特定语境。脱离语境的数据,语义便稳定不了,会产生歧义,并不因为数据的量大或质高,就能摆脱语境的影响。算法呢,无非是基于经验知识和逻辑的数学程式,包含了许多假设,表述我们对事物的一种理解和因果推论。付诸现实世界,就难免有片面性,以致得出偏颇、幼稚、盲目的结论。而数据分析虽是由计算机执行完成,可以控制精确度,但电脑还不能如人脑那样,灵活而恰当地处理超出已知、语境不同的事态。可见,大数据即使十分完美,也只是说明过去或现在,不直接呈现将来。它具有超能的“量”,但终是人的制造和运作,逃不脱人的局限。再看大数据的职责,是预测和决策支持,是处理未来跟未知。当未来与往昔情形相似时,大数据一般能有效发挥作用。但如果不尽相似或迥异,大数据就未必比人高明了;很可能比人错得更厉害,因为它大,会成倍地放大人的缺陷。不幸的是,未来常常不同于往昔,充满了偶然与突变。大数据就没法当灵丹妙药了;过度的信赖,有可能被误导。谷歌公司就犯过这错误,令今年预测美国流感爆发的大数据计划受了重挫。
流感爆发预测,一般由国家卫生部门来做;在美国,便是联邦政府的疾病控制预防中心(CDC)负责。CDC积累了丰富的经验,向医院采集各类检验数据,一般需花两个星期做出预测报告。谷歌公司对数据向来敏感,注意到流感季节,许多人上网检索与流感相关的信息,遂有意开发这一数据富矿。构想是:人群所在地+谷歌搜索器中收录的与流感相关的检索词+搜索发生的时间+“非常聪明”的算式=美国流感患者人数和爆发时间。不是吗,既简单又经济!
于是,谷歌二〇〇八年研发出一组分析算法,对流感检索关键词,发生频率、地域和时间分布等展开大数据分析。仅用一天时间,就拿出了流感爆发预测,发表在《自然》杂志,声称准确率高达97%。《纽约时报》马上头版报道,盛赞谷歌预测是比CDC昂贵的监测系统更及时、更经济的选择。社会反响热烈,因为如果谷歌的方法可以推广到别的疾病防治,将大大简化程序,降低成本,提高效率。谷歌乘胜追击,于二〇一二年年底预测,圣诞节前后美国将出现流感高峰,会有11%的人口患上流感。然而出乎意料,CDC的实地统计数据表明,流感高峰时患者人数只是人口的6%,谷歌错得离谱,把数字报高了近一倍。原来,谷歌的数据集和算法出了问题。试想,流感季节来临,媒体密集报道,人们谈论一多,网上便成倍放大。加上谷歌预测本身的影响,流感信息的传播就比流感病毒快得多。公众的注意力被牵动了,不管有没有感冒症状,是否得了流感,大家都上谷歌搜索一把。所谓“好奇关注型检索”多如牛毛,淹没了真实的病患检索,形成巨大“杂音”。这样得来的数据集,用于预测,语境失控,语义便扭曲了。而谷歌忽视了语境语义,盲目地把往昔当作未来,把特定数据误作普遍相关,导致预测的重大失误。实际上,这不是谷歌的流感预测第一次犯错;之前,二〇〇九年猪流感爆发,因为病症和发病季节等语境因素不同于普通流感,预测结果也不理想。所以,大数据的使用和解读必须慎之又慎(参阅《自然》杂志,卷457,2009,页1012-1014;卷494,2013,页156)。
谷歌的失误也表明,对大数据保持谨慎之不易。因为大数据可以,并且常常提供,高准确度的预测,能满足人类对超级能力的渴求。这使得我们很难抵御它的诱惑,一旦放松警惕,一些基本原则就会动摇,尤其在伦理道德方面。众多迹象表明,这已经影响到了我们的社会生活。美国运输安全局(TSA)实施的“风险安全计划”,便是有代表性的一例。
TSA负责全国的机场安检。“九一一”以来,工作量骤增,责任特别重。TSA雇用了约六万五千名职工,每天安检一百八十万乘客、五百万件行李。为了最有效地防范恐怖活动,专家提出采用“画像法”(profiling),重点排查具有某些行为和背景特征的乘客。但舆论普遍认为,画像法有种族和宗教歧视之嫌,有违美国人尊崇的基本人权,可能违宪。所以,尽管TSA经费紧张,反恐任务艰巨,画像法一直未能系统使用。但一年多以前,TSA启动风险安全系统,开发了名为“风险管理分析工具” (Risk Management Analysis Tool)的大数据计划。该计划利用多年积累的大量经验性数据,模拟恐怖分子行为,找出机场安检的薄弱环节,改革安检程序。对照大数据勾画的恐怖分子的“画像特征”,TSA强调,99%的乘客不是恐怖份子。故应集中有限的人力物力,防范实质性的恐怖威胁,亦即瞄准剩下的那1%。因此决定把乘客分成几等,例如“认识并可以信任”、“不认识”、“可疑”、“可能对空运造成危害”等类型,区别对待,实行不同的安检程序,重点检查人数不多的某几类乘客,而为“认识并可以信任”者提供安检快道。也就是说,基于大数据,美国政府公开替画像法安检正了名。
这一次,主流媒体没有批评。以多数人的利益和经济效益观之,这新政策好处是明显的:既能将有限的资源用在刀口上,保障空运安全,又简化了大多数乘客的安检,是个双赢的局面。但是,画像法背后的伦理取向,似乎背离了美国宪法的平等保护原则,因而是对人权价值的一种修正。换一角度,则是大数据以无限趋近准确的预测为允诺,化身科学,以“量”为“质”,使得一些新的政策和价值变得合理,甚至合法化了。同时,那些被大数据挑战的政策、价值,就显得不正确或不合时宜。然而,人类社会的正义原则和伦理道德,不都是概率或效益衡量的结果。为了社会公平,法律的规定可以向弱者倾斜,而不强调经济效率。有了大数据,要说服我们自己和他人,忽略高准度的预测而放弃可见的效益,继续坚持一些基本原则,就变得比过去更困难了。这是我们在大数据时代回避不了的一个挑战。
同理,大数据也加剧了保护个人隐私的难度。这是因为大数据与资本结合,营造了所谓“监察经济”(surveillance economy)。入侵性的数据采集、挖掘跟打包销售,已经成为今天的政治跟经济活动的基本手段。面对大数据,我们毫无隐私可言,只能指望政客和商家自觉一点,对法律稍存敬意。可是法律实在帮不了太多,看看大选和TSA就知道了。这方面,中国一点也不落后。例如,据“新浪科技”报道,阿里巴巴公司的负责人不久前宣布,“数据挖掘”是企业的三块主要业务之一,准备“分享”海量数据的价值:假如我们有一个数据预报台,就像为企业装上一个GPS和雷达,你们出海将更有把握。这个“GPS和雷达”是什么呢?就是消费者的个人信息的商品化,来自“七剑平台”(阿里巴巴国外、阿里巴巴国内、一淘、淘宝、天猫、聚划算、云计算,业内称“七剑”)每一个用户的一举一动;光是淘宝网,就有过亿的日访问量。这些数据,归类分析了,可以做成形形色色的商品,待价而沽,与任何愿意购买的人“分享”。当然,这并非阿里巴巴的发明,而是当下商家的普遍做法。试想,一个人网络生活的每一细节(例如查看有关艾滋病的信息,或者只是不当心点击了艾滋病药物的链接),都记下来,交由高端分析算法处理;转眼间,他就被“科学”地归类定义(如艾滋病患者或家属),被推断具有某种行为的倾向。所有这些,都可以做成商品,进入流通,个人空间和社会的边界就彻底模糊了。随之而来的便是,作为“患者”或“家属”,他求职开始遇到莫名其妙的麻烦,购买商务医疗保险的申请被拒绝,别人看他的目光变得暧昧……世界变了,变得陌生,难以理解。而对于整个社会,我们发现,原来不是问题的东西成了问题:个人信息到底属于谁?怎么用?谁说了算?我们的法律就不得不重新定义信息的属性、所有权和使用权。而个人隐私是否值得尊重、何为尊重、如何尊重,答案也不再是简单明了的了。
大数据是一种新的话语权威,它改变了我们的生活,塑造着一个新社会新文化。无论你我乐于接受与否,大数据这个精灵一旦跳出魔瓶,就关不回去了。我们唯一的选择,是想办法把它用好、用对,避免误用、滥用。
二〇一三年四月初稿,五一节定稿
勋伯格、库基尔(Victor Mayer-Schonberger & Kenneth Cukier):《 大数据:改变我们生活、工作和思想的一场革命 》(
Big Data: A Revolution That Will Transform How We Live, Work, and Think
),Houghton Mifflin Harcourt, 2013。
易森堡(Sasha Issenberg):《奥巴马总统的竞选如何用大数据大获选民》,载《MIT技术评论》(
MIT Technology Review
),2012年12月16~18日。
原载《东方早报·上海书评》2013.6.2.
文章版权归原作者所有。