大数据技术如何顾及隐私与公平

机器在通过自我学习处理大数据时，能够执行开发者明确提出的要求，却常常未必能够回避开发者想要回避却又未曾明示的后果

众所周知，人类社会已进入大数据时代。大数据技术在创造巨大便利和效益的同时，也引发了始料未及的问题和隐患。每一个人在享受大数据技术成果的同时，其私人生活的方方面面也都成为被大数据技术——诸如手机里的各种 App、公共场所的监控视频、每天的上网和刷卡记录等等——所收集的数据。

一个备受关注的问题是隐私的泄露。在大数据时代，「匿名」并不能保护隐私。一个典型的例子是，Netflix 网站曾经推出一个增强版的电影评分系统，每一位用户都可以匿名地对看过的电影评分，所有评分数据公开。但是研究表明，在 99% 的情况下，倘若某位具有窥视欲的 A 知道其目标对象 B 在一段时间内看过的 6 部电影的名称 (不需要掌握 B 看某部电影的精确日期，可以有前后两周的误差)，就可以确认 B 在 Netflix 上的账号，了解 B 的电影评分记录。由于一个人对于电影的偏好可以反映他在日常生活中往往刻意掩饰的政治倾向和性倾向，所以这样一个电影评分系统会泄露不少人的隐私。事实上，一位隐藏同性恋倾向的母亲就因此把 Netflix 告上了法庭，Netflix 最终取消了这个系统。

另一个问题虽然不像泄露隐私那样明显，但后果更为严重。在大数据时代，很多包含了数据筛选的工作，例如银行贷款和公司招聘员工，都是由机器代替人来作决定。这能否保障公平？2018 年，亚马逊公司就曾爆出丑闻，它用于筛选求职者简历的机器学习模式，对「女性」这个词汇予以贬低性评价，那些在简历中提到自己曾担任「女子国际象棋队队长」或毕业于「女子学院」的求职者都被自动降格——关键在于，这个歧视女性的筛选模式是机器在处理大数据的过程中自行发展出来的，而不是某位人类程序员编程的结果。就像围棋程序「阿尔法狗」(AlphaGo) 打遍天下无敌手，但开发这个程序的程序员并不是围棋高手。换言之，即使一家公司并不歧视特定人群，也不能保证他们所开发和使用的大数据技术不会歧视特定人群。长此以往，会造成严重的不公平。

那么，人类社会应当如何减少大数据技术对隐私和公平造成的危害呢？传统思路是制定法律，规范人类对大数据技术的使用，这在许多国家已经付诸实践。而在计算机科学家群体内部，还有一条「从内部解决问题」的思路——把社会规范直接嵌入大数据技术之中，让大数据技术本身顾及隐私与公平。

乍听起来，这似乎是天方夜谭，怎么可能让机器「理解」隐私和公平这种概念呢？事实上，所谓「让大数据技术本身顾及隐私与公平」，是指通过特定的算法原则来指导机器如何处理大数据，而这些特定算法符合保护隐私和保障公平的伦理关怀。这正是美国两位计算机科学家克恩斯 (Michael Kearns) 和罗斯 (Aaron Roth) 的《伦理算法：具有社会意识的算法设计科学》一书的主题。

先看隐私，传统观念认为匿名是保护隐私的利器，但是前述 Netflix 的例子说明，在大数据时代，匿名并不能真正保护隐私。另一个保护隐私的常见思路是对数据库「上锁」，只有掌握「钥匙」的特定人士才能查阅相关数据，但是这样就限制了数据的使用。而数据应当是开放共享的，如此方能用于各种科学研究，促进社会发展。那么，应该怎样处理保护隐私和共享数据之间的矛盾呢？

在 21 世纪初期，计算机科学家建立了「差分隐私」(differential privacy) 的概念。它的意思是，如果在数据库里抹掉某个特定个体的数据，这个数据库依然可以反映与保留该个体数据时完全一致的宏观信息，那么这个数据库就可以既保护该个体的隐私 (通过抹掉)，同时付诸研究者使用。

一个例子是调查一座城市里对婚姻不忠的人员的比例。这个问及「你是否曾经对婚姻不忠」的调查无疑涉及隐私。为了保护隐私，可以采用随机化的方法。调查者先让被调查人员扔一枚硬币，但是不要告诉调查者扔硬币的结果。如果硬币呈正面，则被调查人员说真话；如果硬币呈反面，被调查者需要再扔一次硬币，如果硬币呈正面则说「是」，反面则说「否」。这种方法保证了调查者不会了解每一位被调查人员是否真的曾经不忠，而在样本数量足够多的情况下，调查结果可以反映总体的人员比例。如果对婚姻不忠的人员比例是 1/3，那么这次调查中说「是」的比例就是 5/12。也就是说，通过随机化调查可以反推出想知道的答案。对于通过「上锁」来保护隐私的传统方法来说，一旦「钥匙」被破解，隐私就会被泄露。而随机化方法建立的数据库即使公开，也无法反推出某一个体的真实数据。

Google 从 2014 年开始依据「差分隐私」原则来搜集用户电脑中的恶意代码 (malware) 使用记录，苹果公司也从 2016 年开始依据此项原则来搜集 iPhone 用户的使用记录，它们的方法就是前文提到的随机化，只是具体算法远比它复杂。这是在大数据时代既保护隐私，又高效使用数据的两全其美之道。

再看公平，这是一个远比隐私复杂的概念。有一种观点认为，保障公平的理想手段是屏蔽有可能导致歧视的相关信息，例如在公司招聘时，求职者不需要填写自己的种族身份，以此避免种族歧视。但实际上，各类数据之间的相关性使得这种手段难以奏效。例如在美国，根据一个人住址的邮政编码基本上就可以反推出他的种族身份、家庭收入和教育程度等信息。

因此，从限制数据输入的角度来保障公平并非良策，要让大数据技术顾及公平，关键在于通过特定算法来保证公平的数据输出结果。而这首先需要确认「公平」的含义。

在最简单的情况下，公平意味着统计上的均等。以剧院赠票为例，如果要向两个群体 A 和 B 公平赠送 10 张票，A、B 的人数之比是六比四，那么随机在 A 群体中找 6 个人，在 B 群体中找 4 个人赠票就符合这种公平观念。然而，即使是这样简单的公平观念，将其嵌入大数据技术之中也并非易事。例如，假设赠票不仅要求 A 和 B 两个群体公平，也要对男女公平，而两个群体总人口中的男女比例也是六比四，那么将票随机赠给 A 群体中的 6 个男人和 B 群体中的 6 个女人就能完全符合上述要求，但这就造成了对 A 群体中的女人和 B 群体中的男人的歧视。

问题在于，机器在通过自我学习处理大数据时，能够执行开发者明确提出的要求，却常常未必能够回避开发者想要回避却又未曾明示的后果。由于开发者事先不可能预见所有后果，因此也就不可能事先明示机器。如何让机器自己懂得回避这类后果，是计算机科学的一项难题。

另一方面，在牵涉到其他因素时，就不能再把公平等同于统计上的均等。如果银行对前述 A、B 两个群体发放贷款，而两个群体的信用有所不同，那么就不能根据其人口比例来分配贷款。在这种情况下，公平不是在两个群体之间均等地分配贷款，而是均等地分配「错误」。如果 A 群体的信用比 B 群体高，那么在两者违约率均等的情况下，A 群体就能够得到较多贷款。

这说明公平的内涵是和社会语境相关的，在处理不同的问题时，需要不同的算法。

关于算法的公平性，一个致命的问题在于，最初输入的数据可能就是具有歧视性的。例如，政府要计算 A、B 两区的犯罪率，但是并没有真实的犯罪数据，只有警察逮捕的数据。假设 A、B 两区的实际犯罪率相同，但警察在 B 区的逮捕记录较多，这将导致政府认为 B 区犯罪率较高，因此加派更多警察，而警察越多，逮捕的犯人就越多，如此形成的反馈环就会造成 B 区犯罪率远高于 A 区的印象。一个更加微妙的例子是前述亚马逊招聘模式的性别歧视，那是因为许多日常语言就隐含了对女性的歧视，而这些日常语言作为训练数据被输入机器，机器在识别语义的学习过程中对「女性」这个词汇自动予以贬低性评价。如何回溯并校正这种歧视性的数据输入，是大数据技术的一项关键任务。

在很多情况下，公平并非唯一的目标，效率与公平需要兼顾。如果把「效率损失」和「不公平程度」作为两个量化指标，那么这种兼顾可以表示为如下指令：「在不增加效率损失的前提下尽可能减少不公平程度，在不增加不公平程度的前提下尽可能减少效率损失。」效率和公平在很多时候常常是冲突的，在这种情况下，上述指令就相当于经济学所说的「帕累托改进」，最终会达到所谓「帕累托边界」，也就是不再存在改进的可能，不可能减少不公平程度而不增加效率损失，反之亦然。

「帕累托边界」包含了众多可能的组合。一种极端情况是效率损失为零，完全不考虑公平，这时减少不公平程度就会增加效率损失。另一种极端情况则是不公平程度为零，但完全不考虑效率。任何可以通过数据反映「效率损失」和「不公平程度」的问题，都可以利用程序推算出它的「帕累托边界」，但是把该边界上的哪一个点——即哪一种「效率」与「公平」的组合——作为结论，就需要由人来判断，而非机器来决定。

以上讨论的都是关于如何针对数据作出公平的决策。而在另外一些情境下，由于存在人际之间的互动和博弈，保障公平不仅需要考虑如何处理数据，也需要考虑如何影响人的动机。

驾车上路就是一个重要的「百姓日用而不知」的多重博弈。每个司机选择的车速和路线都不仅仅取决于主观愿望，而是更多地受到路上其他车辆的速度和路线的影响。现有导航 App 的功能，是通过对即时道路和行车数据的处理，为每个司机指出一条最快的行车路线。但每一个司机都试图缩短时间抄近路的结果，就是司空见惯的车流拥堵。

本书提出的解决之道，是设计一种新的导航 App，其算法不是最小化每一个司机的当前通行时间，而是最小化某一区域内所有车辆的平均通行时间。计算表明，这样可以显着降低所有车辆的总通行时间，对社会来说更为公平。

问题在于，怎么让司机接受这样一种新的导航 App 呢？本书指出，这种导航 App 的作用是为司机之间的多重博弈建立「相关均衡」(correlated equilibrium)。所谓「相关均衡」的一个典型例子是交通信号灯。在没有交通信号灯的情况下，车辆在通过路口时缺乏协调机制，只能盲目选择或停或行，容易冲撞。交通信号灯实则提供了一种协调机制，当大家遵循这套机制时，就可以相互判断对方的选择，从而作出自己的正确选择，顺利有序通过路口。同样，以最小化所有车辆平均通行时间为目标的「公平」导航 App，它所指示的路线也会成为一种协调机制，由此带来的顺利有序就是司机接受它的动机所在。

另一个例子是互联网的内容推送，现在通行的算法是根据用户的选择和阅读兴趣推送内容，导致用户的信息渠道日益囿于单一视角和立场，从而造成公共舆论场的碎片化，加剧社会分歧。本书的解决方案是改进算法，不仅推送用户感兴趣的内容，也要推送与用户的惯常视角和立场相悖的内容，起到「兼听则明」「闻者足戒」的作用。这也是一种公平。

本书在篇末指出，赋予抽象的价值观念精密的数学定义，是将社会规范从内部嵌入大数据技术的起点。将来还需要让大数据技术顾及更多的伦理观念，诸如「透明」「可问责」「安全」「合乎道德」等等。这不仅需要计算机科学家的学术探索，更需要借鉴哲学家的思辨成果。以哈佛公开课《公正》而蜚声国际的哲学家桑德尔 (Michael Sandel) 便深受两位作者青睐。毫无疑问，标志着人类文明新纪元的大数据时代，将会赋予哲学全新的内涵。

觀點2

大数据技术如何顾及隐私与公平

大数据技术如何顾及隐私与公平

人脸识别管制难题

加州的数据警长

环球全景监狱

#Nei.st 的其它文章