政见访谈｜Jennifer Pan：如何用大数据研究中国政治？

Large Man Looking At Co-Worker With A Magnifying Glass

采访、整理：政见观察员曹起曈

【精彩观点预览】
◆对于中国这样的国家而言，问题的关键在于——激励执政者的规则是什么？这是中国研究中非常有趣的一点。我们可以从实际结果来探究他们究竟是采用何种策略来维持执政地位的。
◆至少目前来看，促进基层政府回应公民诉求的一项非常重要的原因，在于他们希望获得上级的提拔——提拔标准会针对社会稳定做出要求，因而官员也希望达成这些要求。
◆中央政府作为委托人，当然希望干群矛盾得以化解，但其下辖的各个地方代理人在这一问题上的利益与委托人可能并不一致。换言之，地方有动机不去回应这种矛盾，而是通过压制的方法求得短期的安宁。
◆大数据的确可以帮助我们设计更好的实验——我们如果有效地使用匹配方法，就能找到更为精准的子总体——所以更多的数据对于社会科学家而言是一件好事。
◆当你完成了一项非常严谨的研究，却听到所有人都在说：“对呀，显然是这样，我们早就知道是这么回事了。”其实在我们从事严谨的研究前，常识只能给出很多互相矛盾的理论。只有在研究揭示了结论之后，人们才都会认为最终成立的那个假设是显然的。

潘婕的英文名Jennifer Pan比她的中文名更广为人知。很多人都是从三年前的一篇论文中得知这个名字的。当时，在哈佛大学就读的潘婕和同学Margaret Roberts在她们的导师——校级教授加里・金（Gary King）的领导下，研究了互联网审查。

这一研究之所以引人注目，不仅在于其话题和结论，还在于研究者使用了基于大数据分析的方法。他们统计了中国一千余社交平台上的数百万个网贴，庞大的样本为结论提供了严谨的论据。

此后不久，潘婕同麻省理工学院政治系的徐轶青合作，用大数据研究了中国网民的意识形态倾向（详情参见政见此前的介绍： http://cnpolitics.org/2015/04/ideological-spectrum/ ）。这一发现再次传遍中国社交媒体，让学界之外的读者加深了对Jennifer Pan这个名字的印象。

潘婕的履历充满亮点，她从普林斯顿以最高荣誉获得政治学本科学位以及东亚研究和中文的辅修证书后，在麦肯锡咨询公司的纽约和北京办公室工作了一段时间，又回归学界，到哈佛政治系研习中国政治。

2015年9月，她获得博士学位后，接受了斯坦福大学的工作邀约，担任传播系助理教授以及政治系客座教授，继续探究在中国的体制下，政府如何提高管理舆论、回应公众需求、持续执政的能力。在这个“大数据”炙手可热的时代，对于定量方法的熟练掌握，使她成为中国政治研究领域的新星。

2016年4月初，政见观察员与潘婕在斯坦福的办公室进行了访谈，内容经过翻译、整理和删减，并经过潘婕本人审阅。

一、中国政府如何提高持续执政能力？

【政见 CNPolitics】你最初是怎样对中国的执政方式产生兴趣的？

【潘婕】我对执政方式的兴趣源于我对中国的兴趣——中国的发展及其带来的财富分配和不平等问题。但我的兴趣集中于政治方面，因为我认为是政治构成了上述种种结果的基础。而为了了解中国，我们也需要从更广的角度思考像中国这样的政体如何运作，以及关于这些政治体制的理论。

【政见 CNPolitics】你觉得对于这一类政体的研究一般在多大程度上适用于中国的个案呢？

【潘婕】我认为，学界时常把所有不实行西方民主选举的体制都归位一类，但实际上这些政体间的差异非常明显。所以我在自己的研究中，更倾向于关注那些一党执政的政体，而不是个人专制、家族独裁的体制或者多党制的威权体制。

当然，这些体制之间的差异有时候比较模糊。比如说，俄罗斯的政体是一党制呢，还是更具竞争性的威权体制呢？我觉得现在俄罗斯已经变得愈发一党化了。总之，我在思考关于政体的理论时，基本上想的是与一党制有关的部分。从这个角度说，我的确认为现有的研究成果中关于其它类似国家的讨论也非常适用于中国。

【政见 CNPolitics】你的关注重点在于研究像中国这样的政体如何持续执政。不过，任何一种政体之下的政治家都希望可以延续其执政权。中国在这方面有哪些不同之处呢？

【潘婕】看待这一问题，我们可以有很多不同的视角。的确，所有的政治家都希望维持自己对权力的掌控，但在很多西方国家中，我们对于游戏规则的了解要清楚得多——我们知道哪些制度会激励政治家从事何种行为。换言之，这些国家的执政行为是由制度所约束的，而这一制度就是选举。所以我们会了解政治家种种行为背后的规则。

而对于中国这样的国家而言，问题的关键在于——激励执政者的规则是什么？在我看来，这是中国研究中非常有趣的一点。他们究竟是采用何种策略来维持执政地位的，我们可以从实际结果来探究。

二、中国政府为何要回应民众诉求？

【政见 CNPolitics】但我们也注意到，不同政体维持其执政权的策略中，也有一定的相同点。你的论文中提到的一点是“回应性”（responsiveness），或者你称之为“接受性”（receptivity）。你觉得中国政府和西方国家的政府相比，在回应公民需求方面有什么不同？

【潘婕】其实这就回到了我刚才指出的一点：很多不同种类的政体，如果其国家能力强大，政府官员就可能会回应公民的需求，或者愿意将公民反馈纳入政策考量。

但区别在于，在普选制度的政体下，我们非常清楚官员做出回应的动机——他们想要寻求连任，因而需要逐步在选民心中留下良好的印象。但在中国的情景下，官员为何要回应公民的诉求呢？是因为他们想获得提拔吗——也就是说，这是某种来自上级的要求？还是因为他们不想引发集体行动而导致社会不稳定？换言之，官员不仅希望得到提拔，还想要实现更好的治理效果？迄今为止，在对于中国的研究中，我们依然无法对这些不同动机进行梳理。

【政见 CNPolitics】那基于你的研究，都有哪些原因促进了中国各级政府回应公民诉求呢？

【潘婕】我的研究主要集中在基层，例如县级和地市级的政府组织。我觉得，对这一问题，我们还没有充分的解答，但至少目前来看，促进基层政府回应公民诉求的一项非常重要的原因，在于他们希望获得上级的提拔——提拔标准会针对社会稳定做出要求，因而官员也希望达成这些要求。

基层官员不想见到自己的辖区发生大规模抗议事件，因为这些事件会损害其将来的仕途。即便他们并不认为自己有朝一日可能身居省委书记这样的高位，对于提拔的考虑也很大程度上影响了官员的行为。

不过，我也在研究是否还有其它因素驱动了政府回应公民意愿。例如，公民如果认为政府在倾听自己的呼声，就更愿意分享自己对政策的看法。而政府对诉求进行回应，则是一种宣告自己的确在倾听的信号。因而这样的回应也可能是官员搜集信息的一种方式，而搜集更多的信息有助于政府持续执政。

另外，搜集信息也有助于实现更好的治理——为了加快经济政治，政府会希望了解公民的想法，从而判断当前的治理模式是否有效，是否高效。所以我对于探索官员行为背后除了促进自己获得提拔之外的其它动机也非常感兴趣。

三、内容过滤只为预防“集体行动”？

【政见 CNPolitics】你们在关于中国互联网的那篇论文中提到，会受到干预的是可能催生集体行动的言论，而不是单纯批评政府的言论。批评政府与受到干预与否并不显著相关。你觉得这一结论适用于从上到下的各级政府吗？

【潘婕】我们的研究中，绝大部分数据都来自于全国性的论坛，虽然也有很多数据来自地方论坛。在全国和地方论坛上，都有不少批评政府的言论未受影响。

当然，我们可以想见，如果一个市政府领导在该市的论坛上看到了批判自己的帖子，可能会希望删除这样的言论。但发帖的人同样会意识到这一点，因而网民大概不会在市级论坛上批评市领导，而是会在省级论坛或是微博、微信和博客上发这样的帖子。

总之，人们可能会选择不受当地政府直接控制的平台来表达自己对本地官员的不满。所以最终我们依然能在网上看见批评各级政府官员的信息。

【政见 CNPolitics】你觉得那项研究中的发现只适用于当时的政治氛围吗？如今的舆论氛围是否已经开始出现变化了呢？

【潘婕】我觉得人们应该进行更多的研究和观察。就目前而言，很难说如今的情况究竟如何。我认为我们的研究反映了一点：大规模的数据可以揭示很多小范围样本无法扑捉到的模式和规律。比如说，如果只采访一小部分网络审查员，未必能了解审查的总体趋势究竟如何。

我知道许多人都认为现在对信息的管控发生了变化，但我们需要系统性地看待这一情况，才能判断这些变化是否真的正在发生。

【政见 CNPolitics】另外，不少国际媒体的网站和报道在中国无法访问。但这些网站只是播报新闻，并没有试图激发集体行动。对此你怎么看？

【潘婕】其实我觉得管理社交网站和管理网上新闻的逻辑可能不同，因为我曾跟很多在新闻网站工作的人谈过，其中既包括进行独立报道的网站，也包括新闻聚合类网站。这些新闻网站的工作人员和社交网站、论坛、博客的管理员同宣传部门打交道的经历很不相同。所以我觉得宣传部门管理两者的逻辑或许并不一致。

另外，很重要的一点是，我们所关注的只是中国互联网管理体系中的一个部分。我们研究的是内容过滤机制，也就是在一个帖子已经发出后才被移除的情况。从某种层面上说，这是一种回溯性的机制。我们也知道，监管机构还实施了关键词过滤、搜索过滤以及网站屏蔽等更为预防性的机制，所以从根本上驱动这些不同机制的逻辑可能并不相同。

【政见 CNPolitics】如你所言，内容过滤只是互联网管理的一种手段。从这一意义上说，互联网管理也只是宣传的一种手段。而目前，中国政府也逐步开始采用更为主动的网络宣传方式，近来官方媒体和共青团对“五毛”和“自干五”也做了很多正面报道。你觉得这一手段对工作的政治态度会有什么影响吗？

【潘婕】加里（加里•金）、茉利（玛格丽特•罗伯茨）和我正在撰写一篇新论文，讨论“五毛”现象及其言论特征。其实我们又发现了一些与传统认知不同的内容，所以请大家一定要关注这篇论文！我们现在对“五毛”的研究中发现的迹象，其实与之前对审查的结论非常互补。

我目前从事的研究一直在关注政府的各种策略，这自然而然就引发了下一个问题——这些策略对于公共舆论有怎样的影响。当然，我主要关心政府为什么要采取这些策略，以及这些策略彰显了政府怎样的目标。相比之下，我并没有特别关注这些策略对个人或是公众产生了哪些结果。虽然，我现在关于中国网民政治态度的研究也开始朝这个方向迈进了，不过那只是一个意外（笑）。总而言之，我不觉得现在有任何人能清楚地判断互联网管理和宣传的影响。

【政见 CNPolitics】那回应性又有哪些影响呢？您在研究中也指出，政府是否会回应网民诉求还与干群关系紧张与否有关：官员如果嗅出了干群关系紧张的情绪，则更不愿回应诉求。但从持续执政的角度出发，政府难道不应更有动力来化解这种干群矛盾吗？

【潘婕】的确，我们在研究中发现，地方政府官员在察觉到干群关系紧张的情绪时，会倾向于更不愿接受从互联网渠道获得的反馈。

你可以说，这样的情况下，政府反而应该更为主动地回应网民诉求，以求化解干群矛盾。但这也可能反映了中央与地方之间“委托-代理”的关系问题——中央政府作为委托人，当然希望干群矛盾得以化解，但其下辖的各个地方代理人在这一问题上的利益与委托人可能并不一致。换言之，地方有动机不去回应这种矛盾，而是通过压制的方法求得短期的安宁。

如此，各级政府的利益和目标可能并不一致，所以问题在于，如何促使代理人在这些更艰难的情况下回应民众的诉求。

四、大数据与政治学的激情碰撞

【政见 CNPolitics】我们知道，社科研究中采用统计方法的原因在于，我们无法直接得到所有的数据，因而必须通过样本来估计总体情况。不过，近年来，大数据分析成为了当前的政治学研究（以及其它的社科研究）中的热门话题。你的很多研究中也都采用了大数据分析的方法，但你也曾撰文指出，这一方法的问题在于，其数据点并非通过随机样本实验收集得到。大数据如果不具有代表性，可能会给人们一种对整体情况的幻象吗？

【潘婕】我当然认为获得更多的数据有助于我们从事社科研究。但与此同时，无论是大规模的数据还是多维度的数据，其本身都不能解决因果推断的基本问题。

大数据的确可以帮助我们设计更好的实验——我们如果有效地使用匹配方法，就能找到更为精准的子总体——所以更多的数据对于社会科学家而言是一件好事。

有些人之所以表达对大数据分析的担忧，是在回应“只要有更多数据就能解决所有问题”的观点。这种观点当然不准确。目前我们所能得到的数据大多依然是观测性的，可能并不构成具备代表性的样本。

所以社会科学家仍应保持高度谨慎，对待大数据要如同平时对待其它数据的态度一样——如今我们能得到的数据更多了，这显然是很好的资源，但我们也不能就此忽略通常使用的社会科学推断方法。

【政见 CNPolitics】这个问题在中国研究中可能更明显——很难确保任何得到的数据没有经过预先过滤。比如说，你和徐轶青关于中国网民政治态度的工作论文中，从“坐标”（zuobiao.me）得到的数据样本就未必是具有代表性的。

【潘婕】的确不是，我们的数据中，男性调查对象和大学教育程度的调查对象比例非常高，所以并不具备代表性。

但即便如此，我们依旧可以从数据中了解到有用信息，而这些信息有助于我们将来设计出在全国范围内具备代表性的问卷，或是设计一个实验来检验我们的发现是否正确。每一项研究都是建立在批评、改进、修正此前研究的基础之上的。我觉得这些研究在促进我们对这些问题的思考上都很有意义。

所以，虽然我不认为我们获得的数据是具备代表性的——我们在研究中没有这么说，因为参加关于政治坐标系的网上调查，本身就是一项自我选择的行为。但是，我觉得这一点本身也有积极的一面：出于这种自我选择，参加调查的网民非常积极，因而不太会以具有偏差的方式回答问题，例如基于社会期许偏误而提供觉得他人可能更会认可的答案，而是更愿意反映自己的真实想法。这就在很大程度上减小了我们的误差。

还有一点也很重要，就是我们究竟想用这些数据说明什么。我们只是在观察数据中反映的潜在特征，想了解不同方面的偏好是如何联系的。假使我们可以得到在全国范围内具有代表性的数据，这种偏好间的联系当然会不同，但我们依然在有限的样本中发现了一种重要的关联。我们希望自己的发现可以促进更多关注这一领域的研究。

【政见 CNPolitics】所以你自己接下来准备如何进一步研究这个问题呢？

【潘婕】首先我们要想办法让那篇论文得以发表（笑）！那篇论文还有一部分的工作没有完成，但实际上我的一些同事现在已经开始在全国范围内开展具有代表性的政治倾向问卷调查了，而这其中就有一部分问题来自“坐标”的问卷。

【政见 CNPolitics】另外，不止是大数据，对于整个政治学研究的定量趋势，很多学者也抱持不同看法。西北大学的一位教授就曾投书《纽约时报》指出，“政府在不成比例地支持利于统计分析和建模的研究，尽管所有人都知道，整洁的方程背后掩藏的是混乱的事实，而这些事实是无法用矫饰的数据和假设扑捉的”。你对于定性和定量的这种冲突怎么看？

【潘婕】其实我认为这句话说得很对。每一种模型都是对现实世界的简化。如果把人比作现实世界，那模型只是用木棍搭成的人形。但至少对我而言，我希望研究这个世界的运作方式，找寻可以推而广之的真理，而推广的结果就产生了简化这个世界的模型，这些模型无法囊括所有现实世界中的细节，对此我觉得只能予以接受。

我也觉得如果想真正做好定量研究，尤其是当我们拥有的数据越来越多之后，掌握定量的理论知识其实非常重要——我们必须对自己研究的事物、地区、人、或是制度具备深层次的了解。

因为在大量的数据之下，我们能发现几乎任何的模式，但除非我们具备理论或是直觉的指导，否则很难从这各式各样的模式中找出正确的那一个。与此同时，这些理论本身也是对于现实世界的抽象描述，不过我认为对于社科学者而言，正是理论促进我们基础知识的演进。当然，我觉得深入探寻各类细节的深层分析也很有价值，但那条研究道路并不是我所选择踏上的旅程。

五、研究是为了严谨地理解这个世界

【政见 CNPolitics】你对自己的研究时不时迸发的影响力怎么看呢？所有社科学者都会尽量将其研究行为对研究对象的影响降到最低，但这一点在论文发表之后就很难控制了。

比方说，那篇关于中国互联网审查的论文就在中文网络上引发了热烈的反响。《环球时报》的一篇评论就认为，你们的结论“基本等同于有学者通过调查发现，在推特或者其他美国的社交媒体上，可以公开发表对美国政府进行批评的文章，但不能发表号召采取特定行动，比如，不能发表类似于‘去占领美国’或者‘买个炸药把白宫炸了’的言论”……

【潘婕】咦，等一下，有人对推特做过这样的研究吗？

【政见 CNPolitics】他们只是根据自己的想法做了一个大略的推测。不过，从某种程度上看，这也使得你们的研究结论成为了一个官方媒体为中国互联网政策辩护的论点。所以，回到我们的问题上，你觉得自己关于中国政府如何持续执政的研究是否促进了中国政府持续执政呢？

【潘婕】站在学者的角度，很难回答这个问题。因为我们是在学术期刊上发表这些研究，而大多数的学术论文的受众面并不广泛，所以一般情况下，大概只有20多个恰好也在关心这一问题的人会阅读我们的论文（笑）。

我觉得对我们社科学者而言，或者说，至少对我个人而言，我从事研究的目的，是以尽可能严谨的方法来理解这个世界的运转方式。我只是试图揭示发生的现象，然后测试我们各种基于常识的假设是否成立。

很多时候，当你完成了一项非常严谨的研究，得出了一个结论，却听到所有人都在说：“对呀，显然是这样，我们早就知道是这么回事了。”遇到这种局面当然很尴尬，不过我觉得，其实在我们从事严谨的研究前，常识只能给出很多互相矛盾的理论，而每一种理论都有很多人认同。只有在研究揭示了结论之后，人们才都会认为最终成立的那个假设是显然的。即便如此，回过头来看，我们仍然很难说明我们的研究是否带来什么影响。

但正如我所说的，我作为一个社科学者，希望能通过严谨的工作来理解这个世界。我期待其它的学者会读我的论文，如果一些本科生也会读我的论文，我就更开心了！但再往外推我就不奢望了。很难说广大公众会对什么样的研究感兴趣，我们也不会单纯为了吸引更多的读者而改变自己的研究方向。

【政见 CNPolitics】最后，我们向每一位采访者都会提这个问题：推荐一个对你自己影响深远的中国研究学者，或是一本著作。

【潘婕】这个问题实在是太难了！影响我的学者和著作太多了。有些作者对于中国朋友来说可能有些陌生，所以我推荐查莫斯・约翰逊（Chalmers Johnson）对佃农民族主义的研究（Peasant Nationalism and Communist Power）。其实他还有很多著作，对于日本的经济发展也着墨颇多（MITI and the Japanese Miracle ）。他的研究在理论层面对我影响很深。