学术论争录 | 博士生挑战哈佛教授:社科研究的可复制性问题
学术论争录 | 博士生挑战哈佛教授:社科研究的可复制性问题
#学术论争录
宗教和经济发展之间有没有关系、有什么关系,一直令社会科学研究者大为着迷却又深感棘手。前些年,曾有一段备受关注的学术论争围绕此话题展开。这段论争的吸引人之处,首先在于论辩双方的身份:一边是名震四海的经济学大家,一边是博士都还没毕业的社会学专业学生。
而更重要的,则是这场论争的深远意义:它不仅帮助我们更好地理解了宗教和经济发展之间关系的复杂性,而且在定量研究的方法论、尤其是可复制性对于社科研究的意义方面,给人以深远的启迪。
一
2003年,任教于哈佛大学的知名经济学家 罗伯特·巴罗 (Robert J. Barro)及其合作者在《美国社会学评论》上发表了重磅文章。他们利用跨国数据,研究宗教对经济发展的作用。和之前的许多研究不同,巴罗关注的并非某种具体宗教对经济增长有益还是有害,而是一个社会中宗教活动的整体活跃水平、人们宗教信仰的整体强度对经济增长的作用。
要研究这个问题,不可避免地要面对“反向因果”的问题:宗教并非单向地影响经济发展,经济发展同样也可以反过来影响宗教。根据著名的“世俗化假设”,随着经济发展水平提高,宗教的影响力和信徒的数量会与日俱减。反向因果关系的干扰,增加了将宗教对经济发展的影响分离出来的难度。
为解决这个问题,巴罗采用了“工具变量”的研究设计。其基本逻辑在于,将“宗教的活跃水平与影响力”分成两部分,其中一部分被“经济发展水平”所影响,而另一部分是被和经济发展水平毫无关系的变量——也就是所谓“工具变量”——所决定的。这部分只由“工具变量”所决定的宗教活跃水平与影响力,是丝毫不受经济发展水平所影响的,因此,将其作为自变量放入统计模型中,可以相对可靠地估计宗教活跃水平与影响力对经济发展的影响。
这一研究设计若想成功,必须满足两个条件:第一,选取的工具变量对宗教的活跃水平与影响力有强烈的决定作用;第二,工具变量除了通过影响宗教的活跃水平与影响力而间接影响经济发展外,不和经济发展发生任何关系。
巴罗选取了三个变量作为宗教活跃水平和影响力的工具变量:一国是否有官方宗教、政府是否进行宗教管制、一个社会的宗教多样性。通过分析1965-1975经济增长、1975-1985经济增长、1985-1995经济增长的三波数据,巴罗与其合作者得出结论:宗教的活跃水平(具体而言,人们参加祷告活动的频率)对经济发展有负面影响,而宗教的影响力(具体而言,宗教信仰在人们脑中的牢固程度)对经济发展则有正面影响。
巴罗的发现说明,宗教之于经济发展,其实是把“双刃剑”。一方面,宗教活动越活跃、耗费的人力物力资源越多(比如人们参加祷告所花的时间),越不利于经济发展;而另一方面,宗教的影响力越强(宗教信仰在人们脑中越牢固),越有助于经济发展。因此,对于经济发展来说,最关键的在于一个社会中宗教的“投入产出”效率:如何耗费最少的人力物力资源、输出最大的影响力。
不得不说,这一发现确实让人耳目一新,体现出研究者的学术洞察力。
二
巴罗这篇论文发表六年之后,普林斯顿大学社会学系博士尚未毕业的学生 Cristobal Young 也在《美国社会学评论》上发表研究论文(full-length research article,而非comment and reply),利用巴罗的原始数据复制巴罗的研究,从而对这一研究进行了系统批判,并在此基础上讨论了一系列社科研究中重大的方法论问题。
Young首先指出,在定量研究中,决定某一估计值是否显著的“标准误”(standard error),其实并不能真正反映研究发现的可靠性。根本上讲,标准误所解决的,是“样本的不确定性”(sample uncertainty)问题。同样的研究设计、同样的模型,换一个不同的样本,跑出来的结果往往不同。而标准误的大小,反映的是估计值随样本变化而波动的幅度。
而在当代社科定量研究中,比“样本的不确定性”更严重的,是“模型的不确定性”(model uncertainty)。相信所有做过定量研究的人,都会有这样的经历:为了估计一个数值,我们要尝试十几、几十甚至成百个统计模型:这里删个控制变量、那里添个交叉项;这次删去些样本,下次自变量对数改平方……有些模型,我们会发现其中有明显错误,弃之不用;但许多模型,本身并没有优劣之分,我们没有任何理由选取一个舍弃其余。这个时候,我们往往会倾向于选取那些结果最为显著的模型。也就是说,那些论文里十分显著的结果,如果我们对其背后的统计模型做一些合理、微小的调整,得到的结果可能就大不相同。从“模型的不确定性”角度看去,绝大多数社科研究的结果是否真正稳健,都很值得怀疑。
Young通过对巴罗2003年研究的复制和批判,阐明了以上观点。需要注意的是,虽然Young和巴罗使用的是同一套数据,但Young的分析中却多了十几个样本。虽然Young在论文中没有说明这些多出来的样本是哪儿冒出来的,但如果巴罗的研究发现是稳健的,那么样本数量的变化不应该影响分析质量和最终结论——事实是否如此呢?
对这个问题,Young给出了明确的否定答案,并深入讨论了巴罗研究中存在的三个重要缺陷。
第一,工具变量的选取不恰当。如前文所说,工具变量法若想在这一研究中奏效,就必须对宗教的活跃水平与影响力有强烈的决定作用。换言之,“宗教的活跃水平与影响力”中被工具变量决定的部分,必须足够大到可以用来估计其与经济发展之间因果关系的程度。然而Young却发现,巴罗选取的三个工具变量与“宗教的活跃水平与影响力”之间的关系几乎就没有显著的,辅助检验也不能证明工具变量对“宗教的活跃水平与影响力”有强烈的决定作用。工具变量的选取失当,必然导致分析结果的偏误。
第二,将1965-1975、1975-1985、1985-1995三波数据拆开了分析的结果不一致。在巴罗的论文中,三波数据是放在同一个模型下进行分析的(相当于联立解方程组),如果其结果是可靠的,那么将三波数据拆开分析,也应该得到同样的结果。但事实并非如此。三波数据各自独立分析,结果显著的是少数,不显著的是多数,更糟糕的是,得到的因果关系估计值方向不一、有正有负!
第三,如果考虑了国家之间的异质性,巴罗的结论也站不住脚。将跨国数据放在同一个模型下分析,其背后隐含的假设是:在所有国家,宗教和经济发展之间存在一种“普遍真理”般的确定关系。但我们凭什么断言,在伊朗、津巴布韦、马来西亚和瑞典,宗教和经济发展之间的关系是一致的?通过在模型中放入交叉项,Young发现,巴罗所得到的结论,在亚非国家部分成立,在其他国家不成立;在数据质量差的国家部分成立,在数据质量好的国家不成立。换言之,宗教和经济发展之间没有普适关系。
上述批判之中的第三点,对我们理解宗教和经济发展之间的关系,以至于其他重大的社会科学问题,有深刻的指导意义。在社会科学中,追寻普遍真理,是一件看起来十分酷炫的事;然而轻易假设普遍真理的存在,是一件极其危险的事。理解如宗教和经济发展这样的宏大问题,不能不考虑不同社会环境、不同历史背景之下的复杂图景。普适理论如果存在,那也是建立在对于多样社会动态的扎实分析之上,而不应被事先预设。
三
Young的目的,不仅仅止于批判前辈的研究。在论文的结尾部分,Young深入讨论了由这个研究所引发的“社科研究中可复制性”问题,向学术界的许多惯例大胆开炮:
——社科学者必须高度重视“模型的不确定性”问题,在论文中应该用多种模型设定(model specification)说明结果的稳健,学术期刊的编辑和审稿人也应该要求论文作者提供更多的基于多种模型设定的稳健性检验;
——降低对前人研究进行复制的实施门槛。对于年轻学者来说,向论文原作者索要原始数据以便复制其研究,是一件颇具“撕破脸”意味的事,很多原作者对类似请求置之不理。Young在论文中感谢了巴罗大方慷慨地提供原始数据并鼓励他进行复制研究的举动,但同时指出,进行重复研究的可能性不应取决于原作者的学术道德和个人性格,而应得到制度化保证。Young因此呼吁,学术期刊应定下规矩,学者在投稿时,必须一并附上原始数据和分析代码,以便其他人进行复制;
——学术期刊应对其发表的研究建立随机检验机制。Young建议,学术期刊应专门辟出栏目,每年随机抽取一些研究,将其原始数据广泛散播,鼓励广大学界同仁进行复制检验并发表结果。
Young的这些主张,虽然在当时看来过于大胆,但确实一针见血。近几年来,社会科学界对研究能否复制、如何复制这一问题的关注与日俱增,某种程度上也成为了颇成气候的潮流。《美国经济学评论》、《发展经济学杂志》等知名期刊,已经开始规定论文作者必须上交原始数据和代码,而《社会心理学》、《比较政治研究》等刊物,已经通过专门辟出板块或出版特刊等方式发表复制研究。毫无疑问,这一趋势,对增加社会科学研究的透明性、提高学术研究的质量是大有裨益的。
参考文献
- Barro, R. J. & McCleary. R.(2003). Religion and Economic Growth Across Countries. American Sociological Review, 68 (5), 760-781.
- Young, C. (2009). Model uncertainty in sociological research: An application to religion and economic growth. American Sociological Review, 74 (3), 380-397.
文章版权归原作者所有。