发论文不容易,所以有些科学家可能操纵了数据……

2017-11-01 作者: 戴靖沄 原文 #政見 的其它文章

发论文不容易,所以有些科学家可能操纵了数据……

戴靖沄 蓝培源/作者

10月18日,纽约时报发表的“When the Revolution Came for Amy Cuddy”一文引起轰动。

哈佛大学社会心理学家Amy Cuddy在2010年发表了关于“调整身体姿势会显著提升自信”的研究,名声大噪。Cuddy本人的TED视频创造了极高的点击量,她写的书也攀上畅销榜——Cuddy成为了炙手可热的社会心理学者。

Ted演讲,Amy Cuddy

然而,2014年,苏黎世大学的研究者Eva Ranehill及其合作者在采取更大样本的情况下,无法复制出Cuddy的结果。批判和攻击迅速朝Cuddy袭来,对学术成果的批评甚至超过了职业辩论的界限,成了人身攻击。Amy Cuddy一朝从学术明星坠至千夫所指,最终离开学界。

纽约时报文章的作者Susan Dominus以同情的口吻指出,社会心理学方法的革新,带来了对前人研究的质疑,催生了“复制前人研究”的热潮;而Cuddy,因其研究无法复制,受到了不公平的苛责。

文章一出,推特上许多学者表示,我们要可复制的社会科学,但不要学界欺凌。

这个道理似乎简单直白、没有争议。但Cuddy的经历显示,科学的研究和发展,本质上是凌乱复杂的过程,而科学家也同时是社会、学界职场中的一员,我们无法忽视科学中“人”的一面。

是时候再次探讨我们该如何看待科学了

●被操纵的p值●

Cuddy所受的攻击首先在于她操纵了p值。

P值到底是什么?p值是“显著性检验”中的重要概念,意为“在原假设正确时,出现现状或更差情况的概率。”简单地讲,研究者测试原假设的否命题(即零假设),得出的p值越小,就意味着零假设越荒谬,继而反推出原假设的正确。学术界约定俗成的标准是当p<0.05,即可认为“统计显著”,原假设正确。 比如,在Cuddy的研究中,原假设是“当人们做出更开放强势的姿势(如手叉在腰上)的时候,会影响其自信心”,而零假设则为“更开放强势的姿势对自信心没有影响”。当p<0.05,意味着“姿势与自信无关”这一假设错误,而原假设正确。 当前,p<0.05作为约定俗成的判断驳回零假设的标准,已然成了科学研究有无发表价值的标准。而p值事实上是一个很容易被改变、操纵的值。为了达到小于0.05,研究者可以改变测量方法、改变变量和样本数量,还可以先跑数据,看看有什么变量之间通过p<0.05的测试,再发展相应的假设并构建研究问题。也有人只向读者汇报统计显著的测试和结论。 总之,研究者可以通过各种微妙的方法和技巧,让他们意向的假设达到统计显著。甚至,p值显著性的诱惑力之强,让一些学者直接“构筑”数据,弄虚作假 。 ●复制风波●

2011年,宾夕法尼亚大学的Joseph P. Simmons,Uri Simonsohn以及加州伯克利大学的Leif D. Nelson三位学者发表论文,对2000项研究进行调查,得出结论:心理学研究普遍存在p值操纵的现象。

难道心理学界有普遍的职业道德问题?

并非如此。p值操纵可能是无意的,或者说,不是明目张胆的弄虚作假。事实上,科学研究过程中很多地方需要研究者主观决定——如何收集数据、如何测量想要研究的概念(比如荷尔蒙的测量方式也没有统一标准)、增加或是丢弃变量等等。这便意味着存在着“操作空间”。不仅是心理学界是这样,整个社会科学,包括医学等都面临此类问题。

大家都在做的事,经三位青年学者“揭丑”后,在心理学界引发波澜,还掀起了复制和检查前人研究的运动。

结果,很多研究都复制失败。2015年,一篇发表在《科学》杂志上的文章复制了100项已有的心理学研究,发现只有39个研究能得到之前宣称的“显著”结果。在其它学科的类似复制研究中,经济学的通过率是60%,生物医药可能更低。

好事者当然也复制了Cuddy2010年的著名研究,结果我们都已经知道了:失败。

●科学家也是人●

对一些社会心理学家来说,Simmons等人对操纵P值的批评,意味着对整个社会心理学界的否定和对于个体社会心理学者的攻击。批评研究不严谨、方法存漏洞,和批评之前的研究者都作假,毕竟性质太不同。

当Cuddy的研究未能被成功复制时,Simmons和Simonsohn发了题为“检验最受欢迎TED演讲背后的证据”的博文。随后,各种攻击乃至“哀悼”向Cuddy涌来。最让Cuddy不满的是,批评来自博文而非学术期刊,还加上了有意吸引眼球的标题。

P值操纵是过去整个学科面临的问题,而Cuddy似乎被特意“选中”了。不少对Amy Cuddy的批评充斥着“我抓到你了!”的幸灾乐祸成分。批评者似乎不只是想要推动学科发展,还想在让学术新星名誉扫地中获得满足。甚至有言论称,Cuddy因为曾在事故中大脑受伤,所以做出了垃圾的研究。

这些批评攻击的后果是Cuddy很难继续做研究,许多学者都认为Cuddy受到了不公平的苛责。

Cuddy还因为她对于复制失败的回应受到批评。Cuddy并不情愿否定先前的研究成果,被指不承认错误。对于一位职业生涯和公众形象都依赖于开放姿势的研究的学者来说,否定过去的研究似乎需要放弃太多东西。与之相反,2010论文中的一位合作者Carney,在复制失败后已声明自己不相信开放姿势的力量,并承认一系列当年实验中操纵p值的一系列步骤(Cuddy表示并不知情),彻底与研究撇清关系。

有趣的是,这场风波过后,Cuddy仍然未放弃开放姿势的力量。在2017年2月的TED访谈中,Cuddy表示虽没人能成功复制她2010年的研究,可不少其它相关研究显示,姿势对人们认知、行为和生理结果有正面影响(当然也有研究发现没有影响或是混合影响)。

复制运动虽是学术风潮,却不免涉及个人,变得微妙。可以说,复制运动成了支配很多社会心理学者的新恐惧。纽约大学的心理学教授Jay Van Bave说:“尽管你知道复制你的研究是公正有理的,而且是一种被科学约束的行为,但是还是不可避免地感到不安,尤其是你知道社交网络会迅速传播你的失败。”

还有一个值得关注的侧面是,这个故事也隐约展现出女性研究者的困境。女性学者(特别是曝光度高的成功女性学者)的研究似乎更易受到苛责。学界也有不少性别歧视。

●应该如何对待科学?●

当然,这篇文章并非想让大家对科学丧失信心;相反,我们可以从这个故事中认识到,科学比想象中更复杂。很多时候,科学研究的过程是凌乱繁复、充满不确定性的;同时,科学研究没法真正与“人”的因素撇清关系,研究过程是和学界文化、研究受众相联系的。科学家也是人,我们无法忽视科学研究中“人”的一面。

“复制研究”作为一个约束,可以推动产生更严谨的研究;类似的做法还有设置更小的p值,如0.005。2015年Science对之前研究的检查发现,拥有更小p值(P<0.01)的研究,复制成功的几率较高。2015年7月,来自心理学、统计学、经济学、政治学等领域的72位学者在Nature Human Behavior上发表文章,呼吁采取一个更严格的p值来规范学术行为。 但这并不能真正解决p值操纵的问题。真正的问题是,学界对显著性微弱研究的轻视——没有“显著性”,便不值得发表。这样的后果不止是p值操纵,还可能导致学者们倾向于研究可以发表、容易发表(有数据可以做出显著性)的问题,而不是从问题出发,思考真正有意义的问题。 还有一点,研究者应该如何向大众传播科学,而公众应该如何看待科学? Cuddy被广泛质疑的另一个原因是她的高曝光率。Cuddy的研究复制失败后,一些媒体仍在宣传“姿势改变自信”。Cuddy将自己的一项实验结果当作真理,并过分简化地向公众宣传,还积累了一帮忠实粉丝。这样兜售“灵丹妙药”般的方式,实非科学家所为。 科学研究并非简单粗暴的定论,日后各种更改都是意料之中;更危险的是,简化科学研究的结论很容易让公众产生误解,而这些误解由于有“科学证据支撑”,更易迷惑公众。 媒体在科学报道上也常有此类难题。尤其是以TED为代表的,追求短小精悍,辐射面大的舞台,上台演讲的研究者,通常需要丢弃细节、简化科学。事实上,Cuddy在自己的研究中对结果的显著性描述,并不如她在各种媒体平台上展现得那般绝对和自信。 科普的价值无可争议,但“大众科学”或畅销书式的传播方式,可能会带来对科学更深的误解和伤害。 看来,科学家和公众双方都需要思考如何对待科学这个问题。 一位优秀的科学家既需要遵循主观意愿(比如推动社会进步,Cuddy自称想要帮助弱势群体变得强大),又需要坚守严谨的实证态度,而不是急于依靠有力的“科学证据”去推动自身信条。而大众更需要意识到科学的复杂性,而非病急求医般问科学要一个直接有效的治疗方法。这样的意识也更有利于公众将自己的经验带入科学探讨,作出贡献,形成科学家和大众双向的交流。 本文系网易新闻·网易号“各有态度”特色内容。

参考文献

  • Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E. J., Berk, R., … & Cesarini, D. (2017). Redefine statistical significance. Nature Human Behaviour.
    </br>
  • Blanchard,O. The Economics Job Market Rumors Site Needs to Clean Up Its Act
    </br>
  • PIIE. https://piie.com/blogs/realtime-economic-issues-watch/economics-job-market-rumors-site-needs-clean-its-act
    </br>
  • Bohannon. J. (2016). About 40% of economics experiments fail replication survey.Science
    http://www.sciencemag.org/news/2016/03/about-40-economics-experiments-fail-replication-survey
    </br> </br>
  • Carney, D. R., Cuddy, A. J., & Yap, A. J. (2010). Power posing: Brief nonverbal displays affect neuroendocrine levels and risk tolerance. Psychological science, 21(10), 1363-1368.
    </br>
  • Carney, D. R. (2016).My position on “Power Poses”
    http://faculty.haas.berkeley.edu/dana_carney/pdf_my%20position%20on%20power%20poses.pdf
  • Engber,D.(2016). Cancer Research Is Broken. Slate.http://www.slate.com/articles/health_and_science/future_tense/2016/04/biomedicine_facing_a_worse_replication_crisis_than_the_one_plaguing_psychology.html
  • German, A., & Fung,K.(2016). The Power of Power Pose. Slate
    http://www.slate.com/articles/health_and_science/science/2016/01/amy_cuddy_s_power_pose_research_is_the_latest_example_of_scientific_overreach.html
  • German, A. (2017). Beyond “power pose”: Using replication failures and a better understanding of data collection and analysis to do better science

文章版权归原作者所有。
二维码分享本站