利求同：神奇大数据

2013-06-03 作者: 利求同

智识

原文 #智识的其它文章

利求同：神奇大数据

By: 利求同 . 2013-6-3. 6,930

现在这个世界是媒体的游戏场，有一种游戏唤作“年度词”提名。二〇一二年获提名的一个词叫“大数据”（Big Data），拿着一条响当当的理由：大数据将彻底改观人类文化！

这是何方大圣，竟有如此神力？顾名思义，大数据意味着海量的数据，“海”得远远超出了常规数据管理工具和系统的处理能力，乃是数码互联网技术一个最新动态。不用说，网络早已俘获了我们：从手机短信、刷卡吃饭、缴费、购物，到人肉搜索、QQ聊天、微博围观，日常生活当中哪一样便利甚至习惯，没有一步一个脚印，留下我们的电子行踪？这一切，都是有用的信息，时时被网络服务商、销售方和相关政府监管部门记录在案。为了利用这个巨量的数据集，人们在统计学和决策学等研究的基础上，模拟大脑思维和学习模式，创造出专门的分析工具，编制成算法软件。借助计算机的强大信息处理能力，对大规模数据做细致的梳理归纳。这样，在仿佛随机无序的庞大数据集里，发现人的行为的内在模式，建立事物间的相关性；进而甄别、推断并给出预测，支持决策和行动计划；并通过学习与再学习程序，求得结果的不断优化。可以说，大数据所到之处，一切思路和方法全要更新。

大数据之新，新在以“量”取胜，靠的是前人难以想象的数据量，以及超级的信息分析处理的能量。我们知道，人做事离不开信息分析。小到出门应否带伞，大至卫星如何成功进入轨道，无论个人集体、有意无意。而信息分析能否有所发现、预测正确与否、决策是好是坏，这个“质”的问题往往取决于“量”。一般说，信息量越大、分析工具越精，预测跟决策的品质就越好，行动就越是近于成功。

因此，大数据魅力四射，让各行各业趋之若鹜也就不奇怪了。通过大数据，药学家可以更便捷地测定药物的交叉反应；气象学家更准确地发布预报；商家能及时解读看似杂乱无章的消费者行为，诱导购买；犯罪学家创建了算法犯罪学，用来预防并惩治犯罪，等等。美国自然是这风潮的引领者。去年大选，据报道，奥巴马总统便是借了大数据的光，才获胜连任。

事情是这样的。美国人常说，总统竞选由捐款额决定胜负。奥巴马的竞选班子则聪明地意识到，信息社会要利用信息优势。于是，早在二〇〇八年，他们就悄悄布下一场大数据战役，确定了竞选纲领，力争举棋不定的选民和捐款大腕。拉选票，其实就是做选民的思想工作，有的放矢地说服他。但过去这工作没法做得太细，选民那么多，民情常在变，往往只能大略估计。来到互联网时代，办法就多了。总统的班子从选民登记、电话民调、博客、推特、社交与视屏网站、用户行为的电子轨迹等入手，收集信息，为每一个争取对象建立了有八十来个信息点（变量）的个人档案，包括年龄、性别、种族、职业、教育背景、投票历史、电视习惯，诸如此类。然后用专门编写的大数据算法分析这些数据，推测选民的立场，关注什么，担心什么，直至潜意识中最可能感动他的东西。这样，数据库里的选民便有了血肉，活了。就拿筹款活动来说吧，跟总统晚宴是少不了的，四万美元一张餐券，邀请信美轮美奂，内容更见功夫。竞选班子根据大数据分析结果，为受邀者量体裁衣。对于关心儿童和青少年教育的人士，邀请信会注明晚宴主持人的母亲身份；对爱好文化艺术的，就安排表演节目或知名学者讲话；而对“追星族”，则必有好莱坞或体育明星捧场。结果，奥巴马一举创下了十一亿美元的募款纪录。

当然，大数据的功效不只是争取个体选民，还能够处理像竞选基调那样的大局问题。通过梳理个人信息，大数据可以将选民对各个竞选议题和政府政策的看法归类，测量诸如“满意”“失望”“观望”“其他”等不同态度的选区分布和变化趋势，并据此制定合适的竞选口号。更为关键的是，这竞选大数据计划保持着全程动态，每一次竞选活动得到的反馈，都及时输入数据库，保证档案能准确反应选战的最新发展。必要时，还能激活自学程序，实时调整算法，让决策和行动紧跟形势。实际上，此次大选两党的募捐都很成功，都有用不完的钱。但是，共和党的竞选班子太愿意相信媒体发布的孤立的民调数字，反而迟钝了对选民的感觉。直到离投票日只有几个月了，才意识到对手大数据战略的厉害。这时，追赶已经来不及了。奥巴马的成功连任，分析家都说，大数据功不可没。

的确，大数据有居功的本钱。它的预测和决策精度可以达到85％以上。换言之，它使得成功的预测不再是随机、难以把握的任务，而是建立在科学方法和巨量数据基础上，具有极高的连贯性和可预期性。大数据成了信息时代的预测权威。我们接受它的结论，遵循它的指导，几乎是下意识的。因为大数据无孔不入、无时不在，能量超凡，让人自愧弗如。人类受自身生理器官和认知能力的局限，只能收集处理极其有限的信息。几千年来，人类一直致力于信息工具的改进与革新，如印刷术、图书馆、档案馆等，不断突破自身和材料、技术条件的限制，拓展信息知识的利用。但这些进步并没有改变预测决策的常态：信息缺失，寓意模糊，分析工具的处理能力不高。预测往往不甚可靠，每每失误、丧失机会而浑然不知。直到数码互联网技术的发明，天地才豁然开朗。现在我们可以一刻不停地四处收集信息，记录下信息源的一举一动、社会生活和自然现象的分分秒秒。这样一来，收获积累的数据量以天文级数激增，仅二〇一二年就高达3ZB（10的21次方），预计二〇二〇年将突破40ZB。人工智能和决策研究领域开发了种种分析方法和理论，加上计算机动辄每秒上亿次的处理能力，算法如虎添翼。于是大数据时代的一个特点，便是人们不愿意再容忍信息短缺，或是靠个人的经验智慧来预测、做决断。决策者不仅要求数据说话，而且期待由巨量的动态中的数据来说话。这将成为决策的基本要求。难怪有分析家大胆宣布：大数据预示着“理论”的终结。我想，这是因为我们的天性喜欢 “量”决定“质”，觉得大数据是实时实地的记录，因而真实可靠；它的分析工具来自集体的经验和智慧，富于专业理性；而由计算机来执行，就近乎零差错了。大数据带着我们梦寐以求的品质，让人不得不信服，难以抗拒。

然而，大数据并非如我们想象的那么完美；毕竟，它是人类而非神的创造。正如哥伦比亚大学媒体创新研究所的汉森（Mark Hansen）所长指出：数据承袭了人类的所有缺陷。它不是万能的，只是我们的延伸。故而，使用大数据如稍不当心，那些缺陷便会带来失误。怎会是这样的呢？让我们考察一下大数据的几个要件，就不难理解了。比如数据，总是已经发生或存在的人和事的记录，其语义依赖特定语境。脱离语境的数据，语义便稳定不了，会产生歧义，并不因为数据的量大或质高，就能摆脱语境的影响。算法呢，无非是基于经验知识和逻辑的数学程式，包含了许多假设，表述我们对事物的一种理解和因果推论。付诸现实世界，就难免有片面性，以致得出偏颇、幼稚、盲目的结论。而数据分析虽是由计算机执行完成，可以控制精确度，但电脑还不能如人脑那样，灵活而恰当地处理超出已知、语境不同的事态。可见，大数据即使十分完美，也只是说明过去或现在，不直接呈现将来。它具有超能的“量”，但终是人的制造和运作，逃不脱人的局限。再看大数据的职责，是预测和决策支持，是处理未来跟未知。当未来与往昔情形相似时，大数据一般能有效发挥作用。但如果不尽相似或迥异，大数据就未必比人高明了；很可能比人错得更厉害，因为它大，会成倍地放大人的缺陷。不幸的是，未来常常不同于往昔，充满了偶然与突变。大数据就没法当灵丹妙药了；过度的信赖，有可能被误导。谷歌公司就犯过这错误，令今年预测美国流感爆发的大数据计划受了重挫。

流感爆发预测，一般由国家卫生部门来做；在美国，便是联邦政府的疾病控制预防中心（CDC）负责。CDC积累了丰富的经验，向医院采集各类检验数据，一般需花两个星期做出预测报告。谷歌公司对数据向来敏感，注意到流感季节，许多人上网检索与流感相关的信息，遂有意开发这一数据富矿。构想是：人群所在地＋谷歌搜索器中收录的与流感相关的检索词＋搜索发生的时间＋“非常聪明”的算式＝美国流感患者人数和爆发时间。不是吗，既简单又经济！

于是，谷歌二〇〇八年研发出一组分析算法，对流感检索关键词，发生频率、地域和时间分布等展开大数据分析。仅用一天时间，就拿出了流感爆发预测，发表在《自然》杂志，声称准确率高达97％。《纽约时报》马上头版报道，盛赞谷歌预测是比CDC昂贵的监测系统更及时、更经济的选择。社会反响热烈，因为如果谷歌的方法可以推广到别的疾病防治，将大大简化程序，降低成本，提高效率。谷歌乘胜追击，于二〇一二年年底预测，圣诞节前后美国将出现流感高峰，会有11％的人口患上流感。然而出乎意料，CDC的实地统计数据表明，流感高峰时患者人数只是人口的6％，谷歌错得离谱，把数字报高了近一倍。原来，谷歌的数据集和算法出了问题。试想，流感季节来临，媒体密集报道，人们谈论一多，网上便成倍放大。加上谷歌预测本身的影响，流感信息的传播就比流感病毒快得多。公众的注意力被牵动了，不管有没有感冒症状，是否得了流感，大家都上谷歌搜索一把。所谓“好奇关注型检索”多如牛毛，淹没了真实的病患检索，形成巨大“杂音”。这样得来的数据集，用于预测，语境失控，语义便扭曲了。而谷歌忽视了语境语义，盲目地把往昔当作未来，把特定数据误作普遍相关，导致预测的重大失误。实际上，这不是谷歌的流感预测第一次犯错；之前，二〇〇九年猪流感爆发，因为病症和发病季节等语境因素不同于普通流感，预测结果也不理想。所以，大数据的使用和解读必须慎之又慎（参阅《自然》杂志，卷457，2009，页1012-1014；卷494，2013，页156）。

谷歌的失误也表明，对大数据保持谨慎之不易。因为大数据可以，并且常常提供，高准确度的预测，能满足人类对超级能力的渴求。这使得我们很难抵御它的诱惑，一旦放松警惕，一些基本原则就会动摇，尤其在伦理道德方面。众多迹象表明，这已经影响到了我们的社会生活。美国运输安全局（TSA）实施的“风险安全计划”，便是有代表性的一例。

TSA负责全国的机场安检。“九一一”以来，工作量骤增，责任特别重。TSA雇用了约六万五千名职工，每天安检一百八十万乘客、五百万件行李。为了最有效地防范恐怖活动，专家提出采用“画像法”（profiling），重点排查具有某些行为和背景特征的乘客。但舆论普遍认为，画像法有种族和宗教歧视之嫌，有违美国人尊崇的基本人权，可能违宪。所以，尽管TSA经费紧张，反恐任务艰巨，画像法一直未能系统使用。但一年多以前，TSA启动风险安全系统，开发了名为“风险管理分析工具” （Risk Management Analysis Tool）的大数据计划。该计划利用多年积累的大量经验性数据，模拟恐怖分子行为，找出机场安检的薄弱环节，改革安检程序。对照大数据勾画的恐怖分子的“画像特征”，TSA强调，99％的乘客不是恐怖份子。故应集中有限的人力物力，防范实质性的恐怖威胁，亦即瞄准剩下的那1％。因此决定把乘客分成几等，例如“认识并可以信任”、“不认识”、“可疑”、“可能对空运造成危害”等类型，区别对待，实行不同的安检程序，重点检查人数不多的某几类乘客，而为“认识并可以信任”者提供安检快道。也就是说，基于大数据，美国政府公开替画像法安检正了名。

这一次，主流媒体没有批评。以多数人的利益和经济效益观之，这新政策好处是明显的：既能将有限的资源用在刀口上，保障空运安全，又简化了大多数乘客的安检，是个双赢的局面。但是，画像法背后的伦理取向，似乎背离了美国宪法的平等保护原则，因而是对人权价值的一种修正。换一角度，则是大数据以无限趋近准确的预测为允诺，化身科学，以“量”为“质”，使得一些新的政策和价值变得合理，甚至合法化了。同时，那些被大数据挑战的政策、价值，就显得不正确或不合时宜。然而，人类社会的正义原则和伦理道德，不都是概率或效益衡量的结果。为了社会公平，法律的规定可以向弱者倾斜，而不强调经济效率。有了大数据，要说服我们自己和他人，忽略高准度的预测而放弃可见的效益，继续坚持一些基本原则，就变得比过去更困难了。这是我们在大数据时代回避不了的一个挑战。

同理，大数据也加剧了保护个人隐私的难度。这是因为大数据与资本结合，营造了所谓“监察经济”（surveillance economy）。入侵性的数据采集、挖掘跟打包销售，已经成为今天的政治跟经济活动的基本手段。面对大数据，我们毫无隐私可言，只能指望政客和商家自觉一点，对法律稍存敬意。可是法律实在帮不了太多，看看大选和TSA就知道了。这方面，中国一点也不落后。例如，据“新浪科技”报道，阿里巴巴公司的负责人不久前宣布，“数据挖掘”是企业的三块主要业务之一，准备“分享”海量数据的价值：假如我们有一个数据预报台，就像为企业装上一个GPS和雷达，你们出海将更有把握。这个“GPS和雷达”是什么呢？就是消费者的个人信息的商品化，来自“七剑平台”（阿里巴巴国外、阿里巴巴国内、一淘、淘宝、天猫、聚划算、云计算，业内称“七剑”）每一个用户的一举一动；光是淘宝网，就有过亿的日访问量。这些数据，归类分析了，可以做成形形色色的商品，待价而沽，与任何愿意购买的人“分享”。当然，这并非阿里巴巴的发明，而是当下商家的普遍做法。试想，一个人网络生活的每一细节（例如查看有关艾滋病的信息，或者只是不当心点击了艾滋病药物的链接），都记下来，交由高端分析算法处理；转眼间，他就被“科学”地归类定义（如艾滋病患者或家属），被推断具有某种行为的倾向。所有这些，都可以做成商品，进入流通，个人空间和社会的边界就彻底模糊了。随之而来的便是，作为“患者”或“家属”，他求职开始遇到莫名其妙的麻烦，购买商务医疗保险的申请被拒绝，别人看他的目光变得暧昧……世界变了，变得陌生，难以理解。而对于整个社会，我们发现，原来不是问题的东西成了问题：个人信息到底属于谁？怎么用？谁说了算？我们的法律就不得不重新定义信息的属性、所有权和使用权。而个人隐私是否值得尊重、何为尊重、如何尊重，答案也不再是简单明了的了。

大数据是一种新的话语权威，它改变了我们的生活，塑造着一个新社会新文化。无论你我乐于接受与否，大数据这个精灵一旦跳出魔瓶，就关不回去了。我们唯一的选择，是想办法把它用好、用对，避免误用、滥用。

二〇一三年四月初稿，五一节定稿

勋伯格、库基尔（Victor Mayer-Schonberger & Kenneth Cukier）：《大数据：改变我们生活、工作和思想的一场革命》（ Big Data: A Revolution That Will Transform How We Live, Work, and Think ），Houghton Mifflin Harcourt, 2013。
易森堡（Sasha Issenberg）：《奥巴马总统的竞选如何用大数据大获选民》，载《MIT技术评论》（ MIT Technology Review ），2012年12月16~18日。

原载《东方早报·上海书评》2013.6.2.