图文详解:《科学》杂志论文数据造假现形记

2015-06-08 作者: 特约作者 原文 #政見 的其它文章

图文详解:《科学》杂志论文数据造假现形记

0608
</img>

政见特约作者 张涵 撰文

政见团队成员 韩紫熙  制图

2015年5月末,美国社会科学界爆出轰动性的丑闻:半年前在《科学》杂志发表的一篇广受关注的论文被质疑数据造假。

论文作者之一、哥伦比亚大学著名政治学家 Donald Green 已经主动要求撤稿;《科学》杂志于5月26日正式撤下此文。虽然事件还未尘埃落定,但它注定会成为美国社会科学研究历史上的经典案例。

政见团队为你详解这桩丑闻的来龙去脉。通过下面的手绘,你可以快速了解事件梗概。想要读到更详细的内容,请继续让手指向上滑动,我们准备了深入讨论事件及其后续反思的文章。

终版6.1

制图:韩紫熙

与同性恋交谈之后发生的改变:实验发现的惊人效果

被质疑造假的论文题为“When contact changes minds: An experiment on transmission of support for gay inequality”,两位作者分别是加州大学洛杉矶分校(UCLA)的政治系博士生 Michael LaCour ,以及哥伦比亚大学的政治系教授Donald Green。从论文标题可以看出,其内容与对同性恋权益的态度有关。

同性恋权益保护,包括同性恋婚姻合法化的讨论,是近年来美国最为热门的公众议题之一。社会科学中有一大类“接触理论”(intergroup contact theory)指出,不同群体之间的个人在生活中的接触,能够减少多数群体对对少数群体的歧视。因此,对同性恋歧视的倾向,可能是由于异性恋群体缺乏与同性恋群体的亲身接触;而要消解对同性恋的歧视,或许可以通过促进异性恋群体与同性恋群体的接触实现。比如,如果你知道自己的好友其实是同性恋,那么可能会对这个群体产生更大的好感。

问题在于,如何证明这一理论在现实中可行?首先,个人选择,比如同类相聚的因素,会使得个人倾向于避免接触不同性取向的人,也就无法回答“如果接触不同性取向的人会这样”这个问题。其次,同性恋人士可能掩盖自己的性取向。最后,每个人生存的社会环境,会限制个人选择。

由于这些限制,我们研究这个问题最好的方法只能是通过随机试验。LaCour就设计了这样一个实验:他招募了22个异性恋,19个同性恋作为拉选票者,然后随机派他们拜访洛杉矶地区的一些选民(共972人),鼓励人们支持同性婚姻。因此就有了如下两组:

1. 同性恋拉选票者对选民鼓动同性婚姻
2. 异性恋拉选票者对选民鼓动同性婚姻 </br>

具体的过程是:首先,拉选票者去登门拜访,征询受访者对婚姻的看法。在过程中,拉选票者表明自己的性取向,然后

1. 同性恋拉选票者分享自己是如何因为同性婚姻不合法,而无法结婚的;
2. 异性恋拉选票者,则分享自己的朋友或者亲戚中的同性恋无法结婚的经历。 </br>

在拉选票者上门前后,受访者都被邀请参加一个在线调查。其中两个问题是作者关心的:

1. 你支持还是反对合法的同性婚姻?请从1-5中选择,1为强烈反对,5为强烈支持。
2. 你对同性恋人群,感觉较为亲切,还是有所顾虑,并不喜欢?请用1-100之间的数字表示,靠近1代表不喜欢,靠近100代表喜欢,50代表没有偏好。 </br>

研究者发现,在被登门拜访三天之后,受访者普遍表现对同性婚姻更为支持——平均而言,他们对同性婚姻的评分在五点量表中提高了0.4。而在三天后,由异性恋拜访的选民的态度已经回归受访前,没有变化;这说明由异性恋来宣传同性婚姻,其实并无效果。而由同性恋者拜访的选民,效果惊人:他们对同性婚姻的评分在一个月后并未消减。

更惊人的是,恰好在一个月后,加州高等法院宣布同性婚姻合法。此时,由同性恋者拜访的选民继续增加他们的支持。最终,他们对同性婚姻的评分较之受访前提高了0.8。

在一个五点量表中,选民对同性婚姻的支持增大了0.8。这个数字实在大得惊人:2012年的一项全美调查(CCAP)发现,美国对同性恋婚姻合法化的意见最为负面的州之一佐治亚州,与最支持的州之一麻省,在这项问题上的区别正是0.8。这也就意味着,与同性恋在同性婚姻上有深入的交流,几乎等于把一个保守的佐治亚州人转变为开放的麻省人!

对数字敏感的人,其实不需要这个类比都能看出惊人之处:在五点量表中,最大的变化值是4:从1(完全反对)变到5(完全支持),但这种极端情况一般很难出现。实际生活中,可能的最大变化一般在1-3之间,平均大约为2。那么,0.8的变化,几乎是可能的最大变化的40%左右。短短20分钟左右的交流,居然能产生如此大的变化,不得不令人咋舌。

同样的,在对同性恋的好感问题上,在100点量表上,由同性恋拜访的受访者给出的答案比原来增加了10.6,这个变化同样不小。

这可能是真的吗?不少学者提出了质疑。低选举率一直是困扰成熟民主国家的一个问题;因此有一大类政治学文章,在研究如何促进投票率的问题。而其中被广泛接受的研究方法,即通过随机分配的拉选票者,上门访问选民,来观察不同的拉票行为能否增进投票率或者改变观点。因此,美国政治学家对LaCour的实验方法和步骤其实并不陌生。但是LaCour这篇文章所描述的巨大效果及其持续时间,大大超过所有以前的类似实验的效果。

尽管难以置信,但大部分人仍然选择相信论文合作者之一Donald Green。理由很简单:Donald Green是此类实验的先驱,同时也是一位开放数据和代码的拥趸:他的大部分文章,包括此篇,都会主动分享代码和数据,供后来者使用,这也增强了学界对其的信任。

自然,这篇文章引起了轰动。美国各大媒体跟进报道;学者基于这个结果开始深入实验;而不少同性恋维权群体已经开始准备利用论文的方法,推动社会对同性婚姻的支持。

层出不穷的疑点

加州大学伯克利分校政治学系博士、年仅26岁便获得了斯坦福大学商学院教职的David Broockman,最初也被LaCour的结果所振奋。而且,Donald Green是Broockman的本科导师。Broockman在2013年美国政治学年会的时候,从LaCour处得知了最初的一些结果。但是在他准备自己做一个类似的实验的时候,问题马上浮现——

LaCour实验的成本相当惊人。简单的估算:LaCour其实开展了两项互联网调查,有9507人参与,他声称为每位受访者支付了100美元的的报酬。这样一来,研究的总成本高达一百万美元。一个在读博士如何能获得如此巨额的经费?Broockman联系了不少专业的调查公司,但没有一个公司能以一个博士生可以负担得起的成本来完成调查。

LaCour正式发表论文时(2014年12月),提供了论文的数据和代码。借此,Broockman能够验证论文的结果。他马上发现一个问题:受访者在被访前后都填写了网络调查问卷,而这两次问卷的答案区别很小。尤其是在100点量表上,一般情况下被访者多次填写的数字都会有偏差,因为我们很难精确的把自己的态度描绘成数字,但是在LaCour的数据中,两次调查之间的偏差非常小,几乎无法区分。

为了进一步验证自己的怀疑,Broockman与Kalla(同样是伯克利政治系的博士生)也进行了一项类似的网络调查。在LaCour的研究中,他首先发放了网络调查问卷,询问填写人是否愿意接受入户调查,12%的填写者同意最终的上门调查。但是在Broockman的网络调查中,只有不到1%的填写者同意后续的入户访问。Broockman不断与LaCour联系,试图了解LaCour如何能让如此多的人同意受访,但是LaCour搪塞而过。

无奈,Broockman找到一个与LaCour有过合作的学者,从他那里得知,LaCour的这篇论文是经过一个名为uSamp的调查公司来收集受访者的。此人同时将uSamp与LaCour的联系邮件转发给了Broockman。邮件显示,Jason Peterson是公司具体的负责人。

于是,Kalla与uSamp公司联系。惊人的是,uSamp根本就没有一个叫Jason Peterson的员工!

此时,Broockman和Kalla才意识到,这些诸多的疑点,都指向一个可能性——数据完全是伪造的。

此后的3天时间,Broockman和Kalla试图反推造假的过程。他们联想到LaCour在文中曾经将他们的结果与前文提及的CCAP调查结果作比较。他们灵机一动:是否有可能LaCour利用了CCAP中已有的数据?

很快,他们有了惊人的发现:从CCAP的调查数据出发,随机加上一些噪音,居然真的可以复制出LaCour文章中关于对同性恋态度问题的数据分布。这其实已经完整重构出LaCour造假的全过程。

Broockman等人于5月17日同Green联系。Green在读完其报告后,马上与LaCour联系,希望其解释关于对同性恋态度问题的数据来源。LaCour声称自己偶然删除了此文件,否认数据造假,但承认自己在文中所述的为受访者提供100美元报酬并不属实。

Green希望LaCour尽快答复,但是在两天之内LaCour并未给出满意的解释。于是,Green单方面通知《科学》杂志,承认论文数据有误,希望撤稿。同时,Broockman等人在自己网站上公开了对LaCour的质疑信。

主角无力的自我辩护

此事被爆出后引起轰动。媒体跟进报道,学界也在开始重新检查LaCour过往的文章。大家发现,LaCour的文章中还有更多的造假嫌疑。

比如,LaCour在发表的论文中说他得到了三家基金会的资助,但是这三家基金会都表示从未向LaCour提供资金。

同时,LaCour的简历中列出了自己曾经接受过不同基金会的资金用于研究,总额高达79万美元。其中最大的一笔,超过16万美元,也被证实造假。

Emory大学的研究者表示,他们同样发现另外一篇LaCour的论文中,方法同样值得怀疑。整个学界为之震惊。《科学》杂志则已经正式撤稿。

LaCour直到5月29日才发表正式回应。他承认自己在资金方面有不实陈述,他并未使用现金作为参与调查的激励。他说,这是因为其同事在质疑其作为一个学生,是否有足够资金来支持此项目,因此他伪造了资金来增加可信度。

但是,LaCour依然不承认自己造假,他给出的辩护理由包括:因为保密协议,所以要删除原始数据;Broockman并未完全遵循自己的调查步骤;Broockman等人并未使用他文中的一个变量。他还认为,Broockman应该直接通知第一作者,即LaCour自己,而不是直接联系第二作者Green。他还批评Broockman没有通过正常的同行评议机制提出质疑。

LaCour还强调了Green在研究中的责任——当论文被《科学》杂志接受时,Green曾被要求填写一张作者声明表格,其中询问他是否亲自检查过原始数据。虽然没有看到Green的答案,但LaCour认为按常理他必然做出了肯定的答复,也就是说了谎。虽然Green并没有亲自参与数据收集,但他在此次事件中无疑负有失察责任。

LaCour的辩护并未打消大家的疑惑,因为最主要的问题并未得到回应:为何调查公司完全对其项目不知情?LaCour在发表公告后接受采访,声称自己使用了另外一家调查公司,但这显然不能让公众满意。对其他质疑的回应,大都只是关于方法,即使有可信度,但是如果数据造假,则毫无意义。

后续细节依然有待披露,或许此事尚未盖棺定论,但至少LaCour在论文中对资金造假,和对数据的不实描述,已经确凿。

学界的反思:如何从事件中吸取教训,重建公信力?

这次事件可能会是2015年社会科学界的最大新闻。在此次事件曝光之前,LaCour已经拿到了普林斯顿大学助理教授的offer,但现在很多人都认为他已经不可能继续留在学术界。而他所在的UCLA也表示会关注此事发展。

对这件事情的一大反思,是关于关于学界的同行评议(peer review)机制是否有其问题。科学依赖整个共同体的信任:科学事实都应该是可以被验证的,但是在论文膨胀的今天,显然无法验证每一篇论文。这一造假事件,对同行评议,以及对数据的搜集、整理过程,都产生了冲击。

有媒体披露,在Broockman开始调查的时候,很多同学老师都提醒他:除非有确凿的证据,最好不要公开质疑,因为这会显得他对学术共同体缺乏信任。这可能是一种默认的学术潜规则,但这种潜规则无益于学术界维持自己的声誉。可喜的是,学界已经有不少专门关注学术不端行为的博客,这次的事件就是首先在一个名为“Retraction Watch”的博客上公布的。这些共同体内部自净的行为,有助于这种风气的转变。

同样,这次事件也引发了学者与媒体关系的评论。美国社会科学界在八九十年代变得更为定量化、技术化,学者写作的对象也大都变成了专业学者,论文的重要性逐渐加大;而不像五六十年代一样积极涉入社会辩论,试图通过著作来影响世界。这一方面使得作品更为严格,但也常常被诟病为缺乏社会关注,纯粹成了象牙塔里的游戏。这一趋势从2008年金融危机开始有所扭转。受到经费短缺的影响,媒体关注成为学者申请研究经费、求职或者寻求提升时的重要评判标准。一些综合性科学杂志,比如《科学》更是主动建立宣传部门,试图推销在其上刊登的文章。《科学》杂志的发行方表示,他们有40人左右的专业团队,试图加大《科学》上文章在社交媒体上的关注度。这种受到经济驱动的学术界与媒体的重新联合,固然能使学术研究发挥更大的社会效力,但也可能激发某些学者“搞个大新闻”的冲动,而忽视了必要的道德伦理。

好在,任何惊人的结论,必然会引发更多后续研究,而一旦无法被后续研究证实,其实是引火烧身。

当然,这次事件被迅速曝光,在很大程度上是因为媒体的大量关注和学界最初的广泛认可,引发了不少后来者重复LaCour的研究。这其实反映了近年来社会科学界兴起的”开放和可复制性研究”(Open and Reproducible Research)风潮(见《博士生挑战哈佛教授:社科研究的可复制性问题》http://cnpolitics.org/2014/08/religion-and-economic-growth/)。开放和可复制性研究,核心主要有三点:

1. 开放数据。 开放数据益处颇多。首先,作者建立的数据如果能够开放,其实能促进更多的人来使用数据,促进研究。同样原始数据也有助于后来者复制检验成果。从文中可见,Broockman等人通过LaCour自己提供的数据,最终复制出造假的过程。

一些读者可能会惊讶:LaCour为何要主动提供数据?这不是在自掘坟墓吗?可能的原因有两个:第一,分享数据与代码,成为政治学界近年的潮流;无论年轻博士求职,还是对资深教授的评价,自己收集并分享数据,或者贡献自己编写的代码,都是极大的加分项。这可能是LaCour提供数据的原因之一,即为了求职方便。第二,本文原作者之一Green即为这种风潮的忠实先行者。他的大部分文章均提供原始数据和代码。因此Green要求LaCour提供数据,也是可能的猜测。无论如何,开放的数据使得这个猫腻被很快发现。

2. 开放代码。 即使有了数据,现在依然有绝大部分学者在发表论文时,并未提供分析数据的代码。或许在美国读社会科学的博士生有所体会:经典的统计课作业,就是去要求学生复制已发表的重要文章中的模型和结果。而可能也有不少人,无法完美复制论文的结果。有的时候,这可能是作者提供的细节不够,但也有可能是论文作者在代码中隐藏了一些小的伎俩,使得结果更为显著。提供原始代码,有助于后来者复制论文。而论文本身是关于方法论的话,开放代码更有助于后来者不断复用这个方法。

3. 开放论文。 这点对大学内部的研究者不是最大的障碍,但是对其他无法接触到学校图书馆购买的论文数据库的人士,以及受其他特殊原因(比如防火墙)阻碍的人而言,则都是巨大的障碍。象牙塔之内的学者往往容易忽视这点。

开放和可复制研究的风潮并非完全自生,其发展自然也依赖于制度建设。我们可以简单比较一下美国政治学的两大顶尖杂志:美国政治学杂志(AJPS, American Journal of Political Science)和美国政治学评论(APSR, American Political Science Review)。前者在2010年开始要求所有文章作者必须说明数据从何而来,并且在正式发表后将数据提供给编辑部。而后者则只是鼓励作者指出数据是否会公开,以及合适会公开。对比而言,从2011-13年,AJPS中65%的使用了统计分析的文章,都提供了数据和代码;而ASPR则只有30%。

AJSP要求作者公开数据源的政策,显然有助于促进开放研究的风潮。尝到甜头的他们,于2015年5月初刚刚宣布,所有被接受的文章,如果使用了定量统计分析,都需要向编辑部提供数据和代码。编辑部会雇佣专职的程序员验证结果。文章经验证后方可正式刊出。这一措施在当时激起了很大反响,有人质疑成本过高。但是两周后的Lacour事件,再好不过地证明了此举之先见。

其实,大部分重要杂志上的文章,只要有数据和代码,一般都有很大概率被美国各个社科院系的教授作为统计课程的作业来复制。这一方面是很好的学习机会,另一方面也是在用“众包”的方式,核实每一篇论文。

显然,即使有开放的数据,研究者也无法完全保证每一篇论文都不出差错,但这至少大大提高了造假者的机会成本。政见观察员希望这次LaCour的论文造假事件,一方面能够使得社科学者重新反思自己的学术伦理和社会责任,另一方面也能加快对于分享数据和代码的在制度上的建设,减少这类事件的发生。

开放和可复制研究对学者们提出了更高的要求,但我们找不出理由来不这么做:科学本身就是在不断验证假设和自我完善中前进的。敢于公开自己的数据和代码的学者,大都是对自己的结论充分自信的。当然也有少数冒天下之大不韪,试图南郭吹竽者,也能被及早发现。长远而言,这是整个社科学界加强公信力的一种自我完善机制。

参考文献

  • LaCour, M. J., & Green, D. P. (2014). When contact changes minds: An experiment on transmission of support for gay equality. Science, 346 (6215), 1366-1369.
  • Broockman, D., Kalla, J., & Aronow, P. (2015). Irregularities in LaCour (2014).

回到开头


文章版权归原作者所有。
二维码分享本站