中国政府统计数据如何向学术开放

2017-08-11 作者: 许宪春 原文 #天则双周论坛 的其它文章

中国政府统计数据如何向学术开放

时 间: 2017-08-11

地 点: 天则经济研究所会议厅

主讲人: 许宪春

主持人: 秦思道

评议人: 韩朝华、展江、李双、吴庆

版权所有: 天则经济研究所,转载须注明出处。

实录

主持人: 今天是第 579 次双周学术论坛,我们请到的是许宪春教授,他是原国家统计局副局长,现任清华大学中国社会经济数据研究中心主任。许教授长期从事统计工作,长于国民经济核算, GDP 统计就是他负责组织进行的,他对国家统计核算的方法和情况都很熟悉,而且出了几本有关统计核算的书籍。退下来后到清华大学继续研究有关理论。

今天他报告的主题是《中国政府统计数据如何向学术开放》,这是做研究的人非常关心的问题。做研究要有数据,依据数据说话,所以数据非常重要。国家统计机构也相当大,各地方的正式统计局有调查队,有大量的数据,这些数据如何开放、使用是很重要的问题。

今天来请许教授进行报告,时间是 1-1.5 小时,然后请几位专家一起讨论。现在欢迎许宪春教授作报告!

许宪春:

谢谢张老师的热情介绍!谢谢张老师和盛洪所长给我这个机会,与各位专家、各位参会嘉宾交流一下《中国政府微观调查数据如何向学术研究开放》。

这个话题,对于利用政府统计数据研究经济社会问题的学者来说是非常关注的。

政府统计系统包括国家统计局,其他政府统计部门,比如中国人民银行、海关总署、外汇管理局等所属统计机构 , 都拥有大量的微观调查数据。特别是国家统计局通过周期性普查,包括人口普查、经济普查、农业普查,获得大量的微观调查数据;通过常规年度统计调查获得大量的年度、季度或月度微观调查数据。例如,国家统计局通过建立企业一套表联网直报制度,从规模以上工业企业、有资质的建筑业企业、限额以上批发和零售业企业、限额以上住宿和餐饮业企业、房地产开发经营业企业,规模以上服务业企业等 90 多万家企业,获取年度、季度或者月度生产经营和财务状况等微观调查数据;国家统计局还通过抽样调查的方式获得价格调查(包括 CPI PPI 调查)、住户调查、人口调查( 1% 人口抽样调查, 0.1% 的人口抽样调查)等微观调查数据;国家统计局还通过典型调查、重点调查等获取微观调查数据。

关于这些微观调查数据,政府统计系统,包括国家统计局系统一直在开发应用,不过这是远远不够的,需要学者们参与开发应用。由于受各种因素的限制,包括法律法规和制度上的不完善,学者们想开发应用这些数据存在许多困难,只有一部分学者通过与政府统计部门鉴定协议、开展合作研究等方式参与开发应用其中一部分数据,大部分学者没有机会开发应用这些数据。学者们能得到的数据往往是国家统计局或其他政府统计部门发布的在一定汇总层次上的数据,而这种汇总层次的数据实际上是容纳不了微观调查数据所拥有的大量信息的。许多有价值的学术研究是建立在微观调查数据,包括企业、住户、市场调查数据基础上的。然而大部分学者得不到这些数据。

这就产生一个非常重要的问题,一方面,政府统计系统通过各种方式获得大量的微观调查数据,这些数据没有得到充分的开发应用;另一方面学者们想开发应用这些数据,但其中大部分学者无法获得这些数据。

许多发达国家就政府微观调查数据的开发应用作了长期探索,比如美国、欧盟、日本都以各种形式、各种方式向学术研究开放这些数据。即使不向商业机构、不向企业开放这些数据,但向学术研究开放这些数据,已经成为一种趋势。

中国怎么办?学者们迫切希望政府统计部门开放这些数据,政府统计部门受到各种因素的制约不能开放这些数据。《统计法》明确规定,统计调查中获得的能够识别或者推断单个统计调查对象身份的资料,任何单位和个人不得对外提供、泄露,不得用于统计以外的目的。所以如何打破障碍,使得这些宝贵的微观调查数据能够得到开发应用,能够发挥它的作用,学者也有施展才华的机会,这个事情就变得尤为重要。国家统计局也很重视微观调查数据的开发应用,以前也采取了一些措施,比如说人口普查数据、住户调查数据都有学者在参与开发应用,但真的是远远不够的。

去年我还在国家统计局副局长岗位上的时候,宁吉喆局长让我组织研究,如何既能够使微观调查数据的商业秘密和个人隐私得到有效保护,同时又让这些数据能够得到有效的开发应用。去年 7 月份国家统计局和清华大学签订协议,共建清华大学中国经济社会数据研究中心,让我在退休之后到这个中心去担任主任,其中一项任务就是尝试就微观调查数据的开发应用建立一个平台。这就是今年国家统计局 - 清华大学数据开发中心建立的背景。

从去年下半年开始,我带领一个团队,一是研究发达国家,特别是美国、欧盟、日本,还有澳大利亚、加拿大是如何开发应用政府微观调查数据的;二是对国家统计局现有的微观调查数据资源进行梳理,包括对各个专业统计的分类标准、调查范围、调查方法、调查频率,统计指标的定义、口径范围和计算方法,及其历史上的变化情况进行梳理;三是借鉴发达国家的经验对中国政府微观调查数据开发应用提出建议;四是协助国家统计局起草微观调查数据开发应用试行办法,国家统计局通过认真研究和修改,并经过局常务会讨论,正式形成了《国家统计局关于逐步开发应用微观调查数据的试行办法》,明确了中国政府微观调查数据开发应用的指导思想和基本原则,对数据开放对象、数据开发应用的范围、方式、流程、组织实施等都作出了比较具体的规定。

我今天给大家介绍六个方面的内容。

一、政府微观调查数据开发应用的重要意义

二、中国政府微观调查数据开发应用的现状和挑战

三、发达国家政府微观调查数据开发应用的基本经验

四、 CDC 关于开发应用政府微观调查数据所做的准备工作

CDC :“清华大学中国经济社会数据研究中心”的简称)

五、国家统计局关于《逐步开发应用微观调查数据的试行办法》

六、进一步推进中国政府微观调查数据开发应用工作的建议

一、政府微观调查数据开发应用的重要意义

我们都知道,政府微观调查数据蕴含丰富的信息,是宝贵的经济社会资源,具有重要的经济价值、社会价值和学术研究价值。当今社会,数据就是资源,数据就是财富。对于学者们来说,数据对于学术研究的意义一定有更深刻的体会。许多具有创造性的学术研究成果实际上是对微观调查数据进行开发应用的结果。

当前,在保护商业秘密和个人隐私的前提下,向学术研究开放政府微观调查数据,使之得到充分的开发应用,发挥其应有的重要作用已经成为一种国际趋势。美国、欧盟、日本、澳大利亚、加拿大等发达国家都非常重视,也都采取了一系列措施向学术研究开放政府微观调查数据。

受多方面因素的制约,中国政府微观调查数据的开发应用主要还局限于政府统计系统内部。国家统计局、其他政府统计部门、地方各级统计机构对微观调查数据进行加工、汇总,然后形成各种汇总层次数据,在汇总层次数据基础上开展分析应用,提出政策建议,对学术研究的开放度是远远不够的。从而这些重要的数据资源没有得到充分的应用,也就没有发挥应有的作用。目前,学术界对政府微观调查数据的需求越来越强烈,

政府微观调查数据的开发应用具有非常重要的意义,概括起来包括四个重要方面。

重要意义之一: 有利于推动学术研究深入发展,形成更多具有原创性和国际影响力的研究成果。

国内外有许多学术研究成果是建立在微观调查数据基础上的。国际上顶尖的学术杂志非常重视政府微观调查数据的开发应用,它在刊发论文的时候,甚至要求作者提供相应的数据,以便于对研究结果进行验证。政府微观调查数据蕴涵丰富的信息,这些信息在政府统计部门发布的各种汇总层次的综合数据中远未得到充分体现,大量的微观信息在汇总过程中损失了。

学术研究部门拥有开发应用政府微观调查数据充足的人力资源、能力和潜力。改革开放 30 多年,国家培养和造就了一大批具有研究能力和潜力、具有学术素养和开拓精神的学者,他们也具有开发应用好这些数据资源的积极性和创造性。在保护商业秘密和个人隐私的前提下向学术研究开放这些数据资源,让学术研究人员开展深层次的研究和探讨,形成更多具有原创性和国际影响力的研究成果,提升我国的软实力。软实力一个很重要的方面就是高水平的科研能力和科研成果。所以在保护商业秘密和个人隐私的前提下向学术研究开放政府微观调查数据,有助于提升我国的软实力,有助于推进中国学术研究的发展。

重要意义之二: 有利于更好地服务于宏观决策,促进国家治理能力的提升和治理体系的现代化。

学术研究人员通过开发应用政府微观调查数据,深度挖掘宏观汇总数据无法容纳的信息,深入探讨这些信息所隐含的深层次的结构性矛盾,提供更加精准的量化依据和更加到位的政策建议,有利于充分发挥政府微观调查数据在宏观决策中的作用,促进国家治理能力的提升和治理体系现代化。因为汇总层次数据丢失了许多重要的微观信息,因此仅开发应用这些数据具有很大的局限性,很可能拿不出更有针对性的观点和政策建议。对微观层次数据进行开发应用,很可能会发现通过汇总层次数据发现不了的问题和提出更加具体和有针对性的建议,这对于宏观决策和国家治理是特别有意义的。

重要意义之三: 有利于更好地服务于社会公众,促进经济社会健康发展。

政府微观调查数据对学术研究开放之后,形成一系列具有重要价值的开发应用成果,通过适当的形式发布,并在社会上进行有效传播,有利于社会公众更加深入地了解和把握经济社会发展中深层次问题,促进他们在各自的领域对问题了解的更加深刻,作出更加客观的判断和更加理性、更加合理的生产经营及投资决策,推动经济社会健康发展。

重要意义之四: 有利于改进和完善政府统计,提高政府统计公信力。

通过对政府微观调查数据的开发应用,学者能够更加详细地了解政府统计,包括政府统计的分类标准、调查范围和方法、数据采集方式和处理方法、统计指标的口径、范围和计算方法等。如果不开发应用政府微观调查数据,学者们往往没有机会深入地了解政府统计。开发应用政府微观调查数据的过程,往往是深入了解政府统计的过程,也因此能够发现政府统计存在的问题和不足。我个人有这种体会,往往是在用数的过程中对统计调查制度的了解才更深刻,对统计调查制度存在的问题体会得才更深刻。不用数的时候发现不了问题,用数的时候就会发现问题。学者们在开发应用政府微观调查数据的过程中能够发现问题,从而能够提出有针对性的意见和建议,进而有利于改进和完善政府统计。政府统计的改进和完善光靠政府统计系统本身是远远不够的,大量的学者在开发应用政府微观调查数据的时候发现政府统计存在的问题,提出有针对性的政策建议,特别有助于政府统计的改进和发展。同时,通过对政府微观调查数据的开发应用,学者能够更加深入地理解政府统计,从而就能够信任和维护政府统计的权威性,提升政府统计的公信力。

前些天我在清华大学主持召开了中国政府统计研讨会,请了 10 位主讲嘉宾,包括财政部综合司巡视员、人民银行调查统计司司长、海关总署统计司副司长、外汇管理局国际收支司副司长,以及国家统计局工业司司长、投资司司长、人口司司长、城市司负责价格统计的副司长、住户办主任等,包括我一共 10 个人。我们邀请了 20 个正式参会代表,每个主讲嘉宾讲一个半小时,大家讨论一个半小时,参会学者表示收获特别大。过去,学者们从来没有这么面对面地和政府统计官员深入讨论政府统计问题,也不知道政府统计部门为改进统计数据质量做了哪些工作。参会学者发言说,原来国家统计局和其他政府统计部门做了大量工作改进统计调查方法,提高统计数据质量。长期以来,政府统计数据的生产者与开发应用者之间联系的不密切。

还有一个联系不密切,就是高校经济社会统计教育工作者与政府统计部门联系不密切。这次研讨会我们邀请了一部分应用政府统计数据的经济学家,也邀请了一部分教授经济社会统计的统计学家,都是有一定知名度的教授。经济学家,我们邀请了北大、清华,北航等高校的经济学教授,也邀请了境外的,包括香港中文大学,以及美国一些大学的经济学教授;统计学家,我们邀请了人民大学、央财、外经贸大学等高校的教授。经济学家和统计学家在研讨会上提出许多问题。研讨会一方面是学者们受益,另一方面政府统计官员受益,因为学者们提出问题之后帮助政府统计官员找到统计工作有哪些不足,需要改进。所以两方面都认为很有收获。

这次研讨会之后,北大新结构经济学研究中心副主任王勇教授希望在北大举办一次。我们商定 9 15 -17 号在北大举办中国政府统计研讨会。利用政府统计数据研究经济社会问题的学者对这个研讨会还是很感兴趣的。

向学术研究开放政府微观调查数据,不仅是学者受益,政府统计官员也受益,有利于政府统计的改革和发展。学者们比较深入地了解了政府统计,就能够为改进政府统计提出有价值的建议,推动政府统计改革和发展,提高政府统计公信力。提高政府统计公信力,光靠政府统计部门宣传是远远不够的,如果学者们站出来正确地解读政府统计,指出哪些批评是不准确的,这样对政府统计公信力是有好处的。

政府微观调查数据的开发应用是有重要意义的,我归纳出以上四个方面。

二、中国政府微观调查数据开发应用的现状和挑战

(一)中国政府微观调查数据开发应用的现状

改革开放以来,政府统计系统在微观调查数据的开发应用方面作出了不懈的努力,为党中央、国务院和各级党委政府、各有关部门判断经济社会发展形势,制定经济社会发展政策提供了大量的、有重要参考价值的决策信息,为社会公众提供了大量的信息服务。

现在每个月、每个季度、每年一结束,各级决策部门都非常迫切地了解政府统计数据,通过政府统计数据对经济社会发展形势及时作出判断。

国家统计局也好,其他政府统计部门也好,微观调查数据报上来之后,马上进行各种形式的汇总和开展分析应用,向决策层提供分析应用报告,供决策层判断经济社会发展形势、制定经济社会发展政策参考。社会公众,国际社会现在也都是特别急切地想知道过去一个月、过去一个季度、过去一年中国经济社会发展情况到底怎么样。比如说上半年 GDP 增长 6.9% ,有人说超预期了。如果企业利润、价格变化,居民收入、财政收入等统计数据没出来,对 6.9% 的增长率心里就没底。上述一系列统计数据出来之后,大家对经济增长数据比较有信心。所以政府统计数据对于判断经济社会发展形势是发挥重要作用的,尽管国家统计局和有关部门发布的是汇总层次上的数据,也起了很重要的作用。

政府统计系统也采取合作研究和签订保密协议的方式,允许部分高校和研究机构的学者在约定的条件下使用部分微观调查数据,取得了有一定影响力的学术研究成果。

比如说,大家特别熟悉的李实老师,他和他的研究团队研究居民收入分配问题得到国际国内的广泛认可。实际上,他主要就是对国家统计局住户收支和生活状况调查数据进行开发应用。当然,李实老师本人和他的研究团队做了大量深入扎实的工作,所以得出的结论非常有说服力。再比如有的学者对人口普查数据进行开发应用,也得出一些很有价值的研究成果。

但是,由于政府统计系统大部分专业人员主要是从事统计制度方法的研究和制定,统计数据的采集、加工、处理和发布,专门从事微观调查数据开发应用的人力是非常有限的。有机会与政府统计系统开展合作研究和以签订保密协议的方式开发应用微观调查数据的学者属于极少数。因此,政府微观调查数据没有得到充分开发应用。

总之,国家统计局也好,其他政府统计部门也好,在微观调查数据的开发应用方面都做了大量工作,但受人力资源等因素的制约;学者们也在开发应用政府微观调查数据,但是大部分学者没有机会开发应用。所以,政府微观调查数据的开发应用是不够的,这些数据没有发挥应有的作用。

(二)中国政府微观调查数据开发应用的挑战

1. 法律法规和制度不健全方面的挑战

从美国、欧盟、日本等发达国家的经验看,政府微观调查数据的开发应用工作应当在各项法律法规和制度的框架下进行。与发达国家相比,我国相关的法律法规和制度还不健全。特别是在保守商业秘密和个人隐私方面有严格要求,例如《统计法》明确规定,统计调查中获得的能够识别或者推断单个统计调查对象身份的资料,任何单位和个人不得对外提供、泄露,不得用于统计以外的目的。比如说,统计部门把微观调查数据提供给了税务部门,税务部门利用这些微观调查数据对某些企业进行了处罚,那么统计部门以后再也不可能从这些受到处罚的企业拿到真实的统计数据。所以许多国家统计法律法规关于微观调查数据都明确规定,这些数据不能用于统计以外的目的。

但是,我国统计法律法规和制度关于微观调查数据的开发应用缺乏严格的要求,更缺乏具体的措施,政府微观调查数据的开发应用存在法律法规和制度上的障碍。美国、欧盟、日本为啥可以开放政府微观调查数据?因为他们制定了一系列法律法规和制度,采取了一系列的措施,用以规范微观调查数据的开发应用,既保护微观调查数据的商业秘密和个人隐私,又允许具有一定资质的学术研究机构中的学者对这些数据进行开发应用。美国普查局的微观调查数据不向商业性机构开放,而是向具有一定资质的学术研究机构开放。

2. 数据保密方面的挑战

政府微观调查数据包括企业、住户、市场等微观主体的调查数据,这些数据往往涉及商业秘密和个人隐私。政府统计部门必须按照《统计法》的规定对商业秘密和个人隐私进行严格保密。如果泄密了,就要追究责任。

这是政府微观调查数据开发应用所面临的最大挑战。

3. 人力物力资源方面的挑战

政府微观调查数据开发应用需要做大量的基础性工作和平时数据的维护、监督和管理工作,从而需要投入大量的人力、物力,而政府统计部门没有那么多的人力、物力。

为什么这样说呢?

第一,为了向学术研究开放政府微观调查数据,需要对各有关专业统计调查制度进行必要的梳理,以方便学者在开发应用微观调查数据时参考,正确地使用这些数据。不梳理不行,因为每个专业统计都有相应的调查范围和调查方法、数据采集和加工处理方法、统计指标的口径范围和计算方法。如果不梳理出来,学者们在开发应用微观调查数据的时候就会遇到困难和障碍,也有可能误用数据。在较长的历史时期,各专业统计调查制度往往随着实际情况的变化而发生过变化。为了向学术研究开放政府微观调查数据,也需要对各专业统计调查制度的变化进行必要的梳理。

以工业统计为例。它把全部工业划分为规模以上工业和规模以下工业两大部分,历史上这个划分标准发生过多次变化。 1998 年的划分标准是:规模以上工业为全部国有工业企业和年产品销售收入 500 万元及以上的非国有工业企业;规模以下工业为年产品销售收入 500 万元以下的非国有工业企业和工业个体经营单位。 2006 年的划分标准是:规模以上工业为年主营业务收入 500 万元及以上的工业企业;规模以下工业为年主营业务收入 500 万元以下的工业企业和工业个体经营单位。国有企业与非国有企业一样,都按照年主营业务收入 500 万元进行区分,即:国有企业如果其年主营业务收入在 500 万元及以上,就划入规模以上工业;如果在 500 万元以下,就划入规模以下工业。 2010 年又把规模以上工业的起点标准从 500 万元提高到 2000 万元,年主营业务收入在 2000 万元及以上的工业企业纳入到规模以上工业, 2000 万元以下的工业企业纳入规模以下工业。如果不把这些标准的变化梳理出来,学者在开发应用工业统计微观调查数据的时候就有可能忽略这些标准的变化,从而影响学术研究结果的科学性和可比性。所以向学术研究开放政府微观调查数据就要做大量的基础性工作,需要一定的人力物力资源的投入。这是向学术研究开放政府微观调查数据的一种负责任的做法。

第二,为了向学术研究开放政府微观调查数据,需要对相应的数据进行脱敏和加密处理。出于保护商业秘密和个人隐私的需要,要把那些敏感的信息进行脱敏处理或加密处理,形成可供开发应用的数据,避免在数据开发应用时泄密事件的发生。

第三,为了向学术研究开放政府微观调查数据,需要对相应的数据进行长期维护,需要对数据开发应用工作进行系统有效的管理和监督,以使这项工作能够持续有效地进行。

由于上述一系列挑战,一方面,大量的政府微观调查数据远没有得到充分开发应用,造成宝贵的数据资源的浪费;另一方面,高校和科研机构大量的学者无法开发应用政府微观调查数据,造成宝贵的人力资源的浪费。政府微观调查数据没有在学术研究中发挥应有的作用,没有在宏观决策和国家治理中发挥应有的作用,也没有在服务于社会公众方面发挥应有的作用。

这就是中国政府微观调查数据开发应用的现状,已经在一定程度上开发应用了,但开发应用的远远不够。

三、发达国家政府微观调查数据开发应用的基本经验

(一)政府微观调查数据开发应用的基本原则

如何做到既能够有效地保护政府微观调查数据中包含的商业秘密和个人隐私,又让这些宝贵的数据资源得到合理的开发应用,使之转化为经济效益、社会效益和学术研究成果,有关发达国家的经验是值得研究和借鉴的。

基本原则,我归纳成四条。

1. 在保护商业秘密和个人隐私的前提下,尽可能地将政府微观调查数据向学术研究开放,发挥这些数据的作用。前提是保护商业秘密和个人隐私,不过要尽可能地将政府微观调查数据向学术研究开放,注意是向学术研究开放。

2. 政府微观调查数据开发应用和成果发布必须严格遵守法律法规和有关制度规定。不是随便开发应用、随便发布研究成果。

3. 政府微观调查数据开发应用和成果发布不得泄露商业秘密和个人隐私。

1 条强调的是数据开放,第 3 条强调的是保密。

4. 政府微观调查数据开发应用和成果发布,必须有益于国家治理和学术研究,不得误用、滥用数据,不得损害政府统计部门利益。

(二)政府微观调查数据开发应用的主要做法

1. 建立完善的法律法规及配套制度

美国、欧盟、日本等发达国家在开发应用政府微观调查数据的过程中,均伴随着法律法规和配套制度的建立与完善,对数据开发应用的权责和流程作出明确规定。我们研究的所有这些国家都特别重视政府微观调查数据开发应用的法律法规和配套制度建设。

2. 共建数据研究机构

在开发应用政府微观调查数据方面,有些发达国家采用共建研究机构或者设置第三方机构的方式。比如,政府统计部门与高校或科研机构共建数据研究中心,数据研究中心在政府统计部门与学术研究之间构建桥梁,便于对政府微观调查数据开发应用的权限、范围和流程进行管理。

3. 采用协议方式开发应用数据

在开发应用政府微观调查数据时,有些发达国家采取协议方式,对开发应用的保密性、互惠性和适用范围进行规范,对开发应用者的行为进行约束。

4. 采取多种途径提供数据,实现数据合理开发和保密要求的平衡

对于不同密级的政府微观调查数据,有些发达国家选择不同的途径向学术研究开放。主要提供途径包括,直接提供磁介质数据、设立数据开发终端和加密访问服务器等。有些数据密级比较低,甚至不需要保密,就直接向学术研究开放。有一定的保密性,但是保密要求不是特别严格,提供磁介质,用完之后或者自己销毁,或者合同到期之后把磁介质交回来。密级程度高的,就采取更加严格的措施。

5. 从严管理,保障数据安全

美国、欧盟、日本等发达国家统计机构采取多种途径保障数据安全,主要做法如下。

第一,开发应用前对政府微观调查数据进行脱敏处理,把那些敏感的信息处理掉。常用的做法:包括直接去除敏感记录、数据匿名、数据置换、噪声干扰、抽样法等。

第二,对研究成果进行严格审核,研究成果发布不能透露任何个体信息,所有的研究成果都要求备案可追溯。

第三,对于违规使用数据的机构和个人采取列入黑名单、罚款等多项严格的处罚措施。一旦违规了,列入黑名单以后就没有资格再使用数据了。

美国、欧盟、日本等发达国家统计机构向学术研究开放政府微观调查数据要有严格的要求,有严格的保密措施。美国普查局在全国设立了 24 个数据研究中心, 18 个设在高校, 6 个设在研究机构,例如美联储下属的研究机构。据了解,这些数据研究中心对保密性有特别严格的要求,只有通过申请批准的学者才能进入开发应用工作室;手机、电脑等都不能带进去;在那里的一切活动都在监控之下;所做的任何记录都不允许带出来,研究的结果也不能带出来;通过审核批准之后,研究结果才可以发表。一系列严格的规定就是为了避免泄密事件的发生,也是对数据开发应用者的保护。

据说在某数据研究中心的一位工作人员不小心把手机带进去了,他没有报告,最后被开除了。美联储在某一个州的工作人员跟我聊过一次,他告诉我,在进入数据研究中心开发应用微观调查数据时,就会被明确告知,如果不遵守相应的保密规定就有坐牢的风险。

美国把数据研究中心放在科研机构或高校。数据研究中心在政府统计部门和学术研究部门之间架起了一个平台,利用这个平台对政府微观调查数据的开发应用工作进行管理。数据研究中心受美国普查局监管。

以上是主要发达国家向学术研究开放政府微观调查数据的一些经验和做法。

四、 CDC 为政府微观调查数据的开发应用开展的准备工作

清华大学中国经济社会数据研究中心(英文缩写为 CDC )为政府微观调查数据的开发应用开展了一系列准备工作。

(一)与国家统计局有关业务司合作,整理有关专业统计的微观调查数据资源清单,包括有关专业统计所采用的基本统计分类(比如产业分类、产品分类、登记注册类型等)、调查范围和方法(例如规模以上工业的调查范围、规模以下工业调查范围,有资质的建筑业企业范围,采用全面调查还是抽样调查,等等)、数据采集和加工处理方法(是通过电子采集,还是通过纸介质采集等)、统计指标的口径范围和计算方法及其历史变化,都进行了详细的梳理。在 6 29 日举办的国家统计局 - 清华大学数据开发中心挂牌仪式上,我们把有关专业统计的微观调查数据的资源清单作为内部报告提交出来。

这是为政府微观调查数据的开发应用所做的基础性准备工作。向学术研究开放政府微观调查数据必须让开发应用者了解这些情况,不然的话开发应用工作就会遇到困难。当政府微观调查数据正式向学术研究开放时,还要对开发应用者进行这些知识的培训。

(二)总结政府微观调查数据开发应用的国际经验,梳理发达国家政府微观调查数据开发应用方面的法律法规和有关制度、开发应用的范围、模式、程序、数据脱敏的措施等等。也就是说,研究发达国家到底是怎么做的。

(三)借鉴发达国家的经验,结合中国的实际情况,对中国政府微观调查数据的开发应用提出政策建议。

(四)协助国家统计局拟定开发应用微观调查数据的试行办法。

在清华大学中国经济社会数据研究中心开展的上述课题研究成果的基础上,国家统计局经过反复研究,制定并正式印发了《关于逐步开发应用微观调查数据的试行办法》,明确了中国政府微观调查数据开发应用的指导思想和基本原则,数据开放对象、数据开发应用的范围、方式、流程、组织实施等,用以推进和规范中国政府微观调查数据开发应用工作。

五、国家统计局《关于逐步开发应用微观调查数据的试行办法》

(一)数据开发应用的范围

1. 开发应用的专业领域

《试行办法》规定,根据学术研究需求和统计工作状况,先行开发应用以下三个专业领域:

1 )规模以上工业企业财务状况调查。根据现行统计调查制度,该项调查包括年报和月报,企业通过联网直报平台将报表报送到国家统计局,现在有 38 万多家企业,主要指标包括资产负债、营业收入、营业成本、营业税金及附加、利润总额等。

2 )住户收支与生活状况调查。全国共有 16 万个住户调查样本,分布在各省、自治区、直辖市的 800 多个县区,主要调查指标包括收入类、消费类以及人口和就业类等指标。

3 )人口普查和人口抽样调查。根据现行统计调查制度,全国每 10 年开展一次人口普查,每 5 年开展一次 1% 人口抽样调查,当中年份开展 0.1% 人口抽样调查。

这三个专业领域是学者们非常关注的领域,也是目前比较完善的统计领域。

2. 开发应用的数据

1 )经过抽样后匿名化处理的样本数据。比如,规模以上工业企业财务状况调查涉及 38 万多家规模以上工业企业,开发应用的数据范围不是全部 38 万多家企业,而是在这 38 万多家企业中抽选出一部分样本,把这个样本数据通过专线拉到数据开发中心,例如目前在清华大学试点的数据开发中心,学者们可以到清华大学的数据开发中心开发应用这些样本数据。

2 )抽样原则和抽样比例,由有关专业司研究确定。规模以上工业企业财务状况调查的抽样原则和抽样比例由工业司确定,住户收支与生活状况调查的抽样原则和抽样比例由住户办确定,人口普查和人口抽样调查抽样原则和抽样比例由人口司确定。

3 )根据实际情况进行调整。比如说开发应用的好,数据范围就扩大,甚至专业统计领域也要扩大。

3. 开发应用数据的时间长度

1 )规模以上工业企业财务状况调查数据: 2012 年以来的年度数据。

2 )住户收支与生活状况调查数据: 2005 年、 2008 年和 2010 年的年度数据。

3 )人口普查和人口抽样调查数据: 2010 年第六次人口普查数据和 2015 1% 人口抽样调查数据。

(二)数据开放对象

数据开放对象: 中华人民共和国境内具有法人资格的政府部门、高等院校和科研机构,其中高等院校和科研机构要求具有一定的资质,比如说科研机构一般是中央一级的,如社科院、中科院等。高等院校暂定为 985 院校。以单位名义申请,不接受个人名义申请,上面所说的资质指的是单位的资质,而不是个人的资质。够资质的单位的学者才可以申请。

(三)数据开发应用方式

国家统计局与有关高校或科研机构共建数据开发中心,数据开发中心设在高校或科研机构。国家统计局对开发应用的微观调查数据进行必要的技术处理,使之无法识别或推断单个统计调查对象的身份;将开发应用的微观调查数据存储于特定服务器,与存储普查和常规统计调查数据的服务器进行物理隔离。建立在高校或科研机构的数据开发中心通过网络终端与国家统计局微观调查数据开发应用服务器连接,网络终端不保存数据,仅设置数据访问功能。申请者通过申请和批准后,到数据开发中心开发应用微观调查数据。

(四)数据开发应用流程

1. 提出申请

符合条件的申请者,填写指定格式的申请书。申请书包括研究目的、研究计划(包括时间计划)、预期成果、拟使用的数据,并说明该项研究对宏观政策制定和政府统计产生的积极作用。申请书包括一系列规范的内容,我们正在研究确定具体的内容,申请者都要认真填写统一格式的申请书,并签字。

2. 接受申请

数据开发中心组织专家对提交的申请进行初步评估,通过初步评估的申请提交国家统计局,国家统计局组织有关业务司或专家进行最终评估。

3. 数据使用

通过最终评估的申请者到数据开发中心,通过网络终端访问国家统计局微观调查数据开发应用服务器使用数据。

4. 结果监测

申请者在利用微观调查数据形成研究报告后,须将研究报告提交数据开发中心进行初步评估,初步评估通过后,须再经国家统计局进行最终评估。

5. 成果发布

通过最终评估后,可公开发布研究成果,并报国家统计局备案。研究成果需注明相关数据来源于国家统计局微观调查数据开发应用数据库,并声明研究结果仅代表作者观点。关于这一点也有明确的要求。

(五)数据开发应用的组织实施

1. 国家统计局依法行政和政务公开领导小组,对微观调查数据开发应用工作的重大事项进行研究决策,这是决策层。

2. 领导小组下设微观调查数据开发应用工作办公室,办公室设在综合司,负责统筹协调微观调查数据开发应用工作,这是协调办事层。

3. 国家统计局相关司负责确定拟开发应用的数据范围,选取开发应用的样本。比如工业司负责确定规模以上工业财务状况调查数据范围,选取供开发应用的样本。住户办负责确定住户收支与生活状况调查数据范围,选取供开发应用的住户调查样本。例如,全国住户调查一共有 16 万调查户,供开发应用的样本选多大,是 2 万户、 3 万户还是 4 万户,由住户办确定。样本在各省之间是怎么分布的,也由住户办确定。人口普查和人口抽样调查供开发应用的样本有多大,如何分布,由人口司确定。

4. 国家统计局数据管理中心负责相关数据信息技术层面的管理和维护工作,对微观调查数据开发应用服务器进行管理,保证开发应用工作的顺利进行。

5. 建立在高校和科研机构的数据开发中心负责提供数据开发应用场所,承担网络终端建设和维护,接待数据开发应用申请者,监督申请者按照协议规定使用数据,协助国家统计局起草数据开发应用的各项规章制度,聘请专家对数据开发应用申请者和研究结果进行初步评估。数据开发中心负责两个初步评估,一是申请的初步评估,二是研究结果的初步评估。

《试行办法》规定,国家统计局无偿提供基础数据,数据开发中心作为非营利性独立法人,对数据开发应用过程中产生的必要成本费用予以考虑。意思就是说,数据开发中心是一个非营利单位,为了微观调查数据开发应用工作的可持续性,它可以向数据开发应用的申请者收取一定的成本,但不能盈利。

这就是微观调查数据开发应用的组织实施,有国家统计局依法行政和政务公开领导小组作为决策机构,有国家统计局综合司统筹协调,有关业务司提供数据,有数管中心从事技术维护,有建立在高校和科研机构的数据开发中心提供数据开发应用场所,承担网络终端建设和维护,接待数据开发应用申请者,监督申请者按照协议规定使用数据。这种数据开发应用方式是借鉴了美国、欧盟、日本,特别是美国普查局的经验和做法。

《试行办法》规定,国家统计局在清华大学中国经济社会数据研究中心设立首个数据开发中心进行试点。试点成功之后,在全国其他地方再增设数据开发中心,不是清华这一家。比如说在上海、天津、广州有资质的高校和科研机构设立数据开发中心。对于运作不力的数据开发中心,国家统计局有权要求限期整改,整改合格了还可以继续,如果不合格就撤销,不给你开发应用政府微观调查数据的权限了。

借鉴美国普查局在美国设立数据研究中心的做法,我们对国家统计局 - 清华大学数据开发中心工作室的建设有严格的保密性要求。比如墙一定是实体,玻璃窗一定装有铁栏杆,要有监控设备,在工作室内的一切活动都在监控之下。我们已经请了设计公司在设计,经费批下来之后就进行施工。数据开发中心全部装修完成,国家统计局再把相应的服务器建立起来,并且数据连接成功,国家统计局 - 清华大学数据开发中心的政府微观调查数据的开发应用工作就可以正式开始了。

六、进一步推进中国政府微观调查数据开发应用工作的建议

(一)修改完善统计法律法规和有关制度,对政府微观调查数据开发应用予以鼓励和规范

借鉴美国、欧盟、日本等发达国家的经验,对现行的统计法律法规和有关制度进行修改和完善。在保护商业秘密和个人隐私的前提下,鼓励政府微观调查数据对学术研究开放,同时对微观调查数据开发应用工作进行严格规范,对微观调查数据开发应用的范围、模式、程序、数据脱敏措施等作出严格规定。

现行的统计法律法规在政府微观调查数据开发应用方面还是非常不完善的,缺少上述有关内容。统计法律法规要鼓励政府统计部门向学术研究开放微观调查数据,同时又要有严格的规范,避免在微观调查数据开发应用工作出现问题,这方面的法律法规要跟上。

(二)积极创造条件,努力扩大政府微观调查数据开发应用的范围

在清华大学中国经济社会数据研究中心试点过程中,先行开发应用规模以上工业企业财务状况调查、住户收支与生活状况调查、人口普查和 1% 人口抽样调查三个专业统计领域的部分指标和部分年度数据。我们赞成目前开发应用的专业统计领域、统计指标和数据的时间范围,建议今后进一步创造条件,一旦条件成熟,努力扩大政府微观调查数据开发应用的专业统计领域、统计指标和统计数据的时间范围。

目前确定的政府微观调查数据开发应用的范围,学者们可能会觉得不解渴,专业统计领域不够、数据的时间范围不够。但是,这一步走出去不容易,我们不能要求过高。我们要创造条件,条件成熟了以后,再进一步拓宽专业统计领域,进一步扩大数据的时间范围。还有,目前确定的开发应用的数据是年度数据,条件成熟后,还可以开发应用季度数据和月度数据。供学者们开发应用的微观调查数据要有一个与时俱进的过程。

(三)探讨多种方式开发应用政府微观调查数据

除了在高校和科研机构设立数据开发中心外,还可以对政府微观调查数据的其他开发应用方式进行探讨,借鉴美国、欧盟、日本的一些做法。逐步形成多种开发应用方式,而不仅仅是设立数据开发中心一种方式。在保护商业秘密和个人隐私的前提下,让政府微观调查数据得到更加充分的开发应用,使其在服务宏观决策、服务社会公众和服务经济社会发展中发挥更大的作用。

(四)学者们要为政府微观调查数据的开发应用和政府统计工作的改革和发展作出应有的贡献

这一点主要是对从事政府微观调查数据开发应用的学者们提出的建议。学者们在开发应用政府微观调查数据时不仅要重视取得有价值的学术研究成果,还要严格遵守保密规定,严格遵守开发应用流程,保障政府微观调查数据开发应用工作的可持续发展。如果学者们不愿意遵守保密规定,不愿意遵守开发应用程序,这项工作就不可持续。

学者们在开发应用政府微观调查数据时,要深入了解政府微观调查数据的基本统计分类、调查范围和方法、数据采集方式和加工处理方法、统计指标的口径范围和计算方法及其历史变化,保证正确地使用数据,避免滥用、误用数据。

我们将准备一个培训手册,把各个专业统计采用什么样的分类标准、什么样的调查范围、什么样的调查方法、什么样的数据采集方式、什么样的数据加工处理方法,统计指标是怎么定义的、口径范围是什么、计算方法是什么,都教给大家。学者们要认真地去研究,避免误用政府微观调查数据。

我从事 30 多年政府统计工作,经历了关于中国政府统计的一系列批评和质疑。其中有相当一部分质疑是由于对中国政府统计不了解或者了解的不深入造成的。我写过一系列的文章对有关质疑进行解答,阐述中国政府统计指标的口径范围、计算方法及其适用范围。

比如说,有的学者因为住户调查存在居民收入低估的问题,因此批评国家统计局发布的国民收入分配结构被严重扭曲了。但他不知道,国家统计局计算国民收入分配结构使用的居民可支配收入不是来自住户调查的居民可支配收入,而是来自资金流量表中的居民可支配收入,后者比前者大 40% 多。这种质疑就是因为对政府统计不了解造成的。

学者们在开发应用政府微观调查数据时,还要积极探索适合中国国情的政府微观调查数据开发应用模式,探讨如何修改和完善相应的法律法规和有关制度,规范政府微观调查数据开发应用活动,推动其健康发展。学者们有这个义务,要研究开发应用的模式,要推动开发应用工作的健康发展。

学者们在开发应用政府微观调查数据时,要针对政府统计调查制度存在的问题提出有针对性的改革建议,要针对经济社会发展中的重点热点问题协助统计部门提出科学合理的政策建议,要针对社会上的各种质疑帮助政府统计部门进行科学的、实事求是的解读,让社会更加了解政府统计,支持政府统计,从而实现政府微观调查数据的开发应用与政府统计工作的改革和发展形成良性互动、互利共赢、健康发展!

这就是我给大家准备的,即目前中国政府微观调查数据如何向学术研究开放的一系列准备工作。目前,正在开展的工作是:

1. 按照有关保密要求建立国家统计局 - 清华大学数据开发中心工作室。

2. 建立国家统计局微观调查数据开发应用服务器,把供开发应用的数据装进该服务器。

3. 再把国家统计局的微观调查数据开发应用服务器和建立在清华大学的数据开发中的的终端连接起来。

这些工作完成之后,学者们就可以到数据开发中心申请开发应用政府微观调查数据了。

我认为,虽然大家可能会感到不解渴,但是走出这一步是很不容易的。走出这一步,才有今后的进一步发展。如果这一步走不出去,就谈不上将来的发展,所以这一步是非常关键的。

我认为,现在有非常有利的条件,一方面是国家统计局党组和宁吉喆局长非常支持这项工作,另一方面是清华大学非常重视和支持这项工作。如果没有他们的支持,这项工作是很难想象的。我个人认为这是一件利国利民的好事,应该做,也相信能做成。

我就说这么多,谢谢大家!

主持人: 许宪春讲了关于政府统计数据如何向学术开放,开放的意义、组织、程序等问题。如果能够把统计机构与学术界这两方面沟通起来,把这些数据盘活,对社会各方面都有好处,这个意义确实很重要。

怎么来做这件事情?在我们这个地方看来是一件新鲜的事情,过去政府统计数据做完了,需要的公布了,但大量数据没有开发利用,并没有把它变成社会能够应用的东西。要开放,怎么开放,开放的组织形式、开放的程序、一系列的安排,比如有关保密,统计局要把两套数据分开,变成两个库,那边开发中心、开发单位应该怎么安排,确实面临着很多新的问题。

国外开发应用数据的经验,值得我们来学习。这件事情对于学界来说是一件新鲜事情,怎么来做现在在试验阶段,试验成功了还会进一步推广,统计数据应当进一步开发、应用,而开发了、应用了才可能发现有什么缺陷,应该怎么去做、去改进。

再者,开发应用让社会也知道统计局到底做了什么工作,让工作能够做的更细、更深、更有价值。因为没有开放,学界和统计局之间在有些指标的含义上、方法上有不一样的理解,就会引起对分析、判断上的误判,这也是过去存在的问题。解决了这些问题情况可能就好一些,当然完全消除误会也不大可能。总之,可以使得两方面能够接近,对整个社会的经济运行状态分析更确切一些,这个意义也很清楚了!

我们请了几位专家来一起讨论。可以对他的报告作出评论,也可以针对这个问题进一步来讨论。

下面我们首先请中国社会科学院经济研究所教授韩朝华评论,大家欢迎!

中国社会科学院经济研究所教授韩朝华:

这个报告很有意思。许教授是我国国民收入核算方面的权威,我过去一直看他这方面的研究成果。现在许教授退下来又在做这个事情,我觉得是非常有意义的。

国家统计局的数据对于研究社会问题的学者,可以说是无价的宝库、宝藏,谁能拿到那里的数据做研究,他的研究成果自然就上了一个档次。对许多研究人员来讲,在研究上得到国家统计局的数据几乎是可望而不可及的事情,现在国家统计局自己有了这个意愿来向社会开放数据,真是学术界的福音。尤其有许宪春教授这样一位资深统计专家来主持此事,我想,对这件事情的前景完全可以寄予乐观的期望,应该说这对学术界是一个福音。

今天听下来,我感觉许教授报告的内容主要是他这个团队现在正在做的事情以及对这件事的整体考虑,包括统计局领导对此事的态度、总的方案设计以及目前正在推进的事情,做到什么程度了,等等。听下来,我首先感觉到的是,他们正在做一件全新的事情。给我的印象是,他们在做这件事情上非常谨慎,在一步一步地探索。确实,从研究人员的角度来看,目前准备推出的这三个数据库似乎还是少了点。不过我能理解,因为这是一个全新的事情。国家统计局过去就是一个政府的机构,它是为党中央、国务院服务的,主要不是为社会服务。当然,国家统计局公开发布各种统计数据也是在为社会服务,但拿出原始数据来供其他研究人员使用这个事情,过去统计局基本上没有正式地、大规模地做过,所以说这是一个新的尝试!因此,谨慎是必要的,是应该的,我完全能够理解。这种事情咱们宁可慢,但不要出大的问题。因为考虑不周而弄得不好,出了大的问题又缩回去,还不如不干。一个一个地把问题想清楚了,一步一步地走,一点一点地往外开放,更好。许教授他们的考虑体现了这种精神,这是干实事的做法,我完全赞同。

想到几个问题,我觉得许教授若能再展开讲一讲,解释得细一点也许会更好。

第一,说到微观数据的脱敏、保密的需要,这无论如何是必要的,因为我们自己也做过企业调查、问卷调查。最后形成直接用于分析的数据库时一定要对数据脱敏。如企业名称、法人代码、公司地址等等全部要去掉,只编一个代码在里头,这是必须的。想来这并不特别复杂。但听许教授反复强调脱敏问题,似乎是个挺复杂的事情。我不知道,这里头还有没有更复杂的技术性难点。因为我以为,人名没有、户名没有、地址没有、企业名称没有、法人代码没有,所有这些可以识别观察值对象的个体信息全部去掉,只给一个代码,数据也就脱敏了。我不知道这里面还有没有更具体的、技术上的、想不到就可能会泄密的事情。而且,一般来讲,作为经济学的研究、社会学的研究或者政治学的研究,多数并不关注具体的人、具体的企业,如张三、李四这个住户怎么样,收入情况怎么样,或者某一个企业,如昌平机械厂怎么样、长春化工厂怎么样……研究者并不关心这个,他们主要关心数据整体的结构、分布、趋势等等。所以,多数研究者其实并不需要具体的、涉及个体身份的敏感信息。只有商业性的机构,商业调查、市场调查才有可能关心这些,作为学术研究则不然。我看许宪春教授反复提到脱敏和保密,你们经验多,我不知道里头是不是还有些更复杂的、技术上的难点。这是我听了之后产生的第一个问题。

第二,讲到对数据的使用,要求数据使用者、研究人员、社会机构要遵守法律法规,不能泄密,不能滥用、误用数据。对此,我觉得需要讨论一下。从原则上来讲,这没有问题,任何一个使用者在使用国家统计局提供的数据时原则上都会同意这一要求。不过,国家统计局既然把数据拿出来,给统计系统以外的机构和研究人员来使用,它就意味着允许人们从政府以外的视角和问题意识来理解、分析、解释这些数据。我想应该允许、甚至应该鼓励人们对这些数据做出不同于国家统计局发言人的解读和判断。因此,我认为需要对所谓滥用、误用数据的提法有界定,而且要界定得比较清楚,特别应该避免一个笼统的、可以随便解释的界定。不能看到社会使用者对统计局数据的使用结果不合自己的看法,就断定为是对数据的滥用、误用,就给扣一个帽子,这对于使用数据的人会是一件可怕的事情。

另外,比如说许教授提到,希望社会上的数据使用者不要在分析中把政府说得“一塌糊涂”,那么这“一塌糊涂”的标准什么?在这方面,为了把这件事情做好,恐怕需要有一个比较细的、明确的标准。比如,国家统计局的发言人说我国上半年经济增长稳中趋好,新动力显现,但是社会上的研究者分析后却认为,上半年的中国经济状况不好,有这个问题、那个问题。这种情况允许不允许?算不算对数据使用不当?我觉得,起码得肯定一条,即只要没有篡改数据,并且是严格依照公认的统计分析方法、按照学术规范得出的结论,就不能算“滥用”、“误用”数据,就应该允许研究者说出这个结论。只要对数据的使用没有分析方法和学术规范上的问题,按照实际研究的要求,至少要有一定的言论空间,不能要求用数据的人在判断上都跟国务院发言人、新闻办发言人的口径一致。诸如此类吧。在今后实际的数据使用过程中,这恐怕是难免会遇到的一个问题。

第三,费用的问题。我也说实话,过去国家统计局的数据真是用不起,一般几十万元的小课题根本不敢去找国家统计局。我不知道将来国家统计局对公开的数据会怎么收费。因为,实际生活中,各种非营利机构的收费标准也可以高高低低,差得很远。国家统计局对外公布的数据,我觉得应该是公共品,它是由财政经费即靠纳税人支持的产出。只要社会上的使用者没有拿这个数据用于商业性用途,只是用于学术研究,收费还是应该控制在合理的水平上。

我想到的就是这些,我还是希望这件事情在许教授的主持下能够稳扎稳打,顺利地往前推进,能够成为国家统计局数据向社会开放的开端,让这些数据发挥更大的社会作用,使各界的社会研究人员得到有更好的资源支持。

我的感想就是这样,先说这些,谢谢大家!

主持人张曙光: 韩朝华提的几个问题都很重要,真正要推进这件事情,这些问题都需要解决。有很多问题不在原则,而是在细微之处,很多问题原则很明确,都有了,但是细节的问题没有解决,往往走到另一面去了。谢谢!

下面我们第二位评议人,北京外国语大学英语学院国际新闻与传播系教授、中国传媒大学博士研究生导师展江,欢迎!

北京外国语大学国际新闻与传播学院教授展江

谢谢张老师!

非常感谢许先生今天给我们打开了一扇窗户,经济学方面,我基本上是一个外行,和信息公开相关的法律略有知晓,我主要从法律的角度提一些个人看法。正像许先生强调的,如果没有一个好的法律法规体系,这个事情就不好做。这在中国目前应该说还是有难度的,难度在什么地方呢?我只能粗线条地谈一谈个人观点。

第一,整个社会,特别是政府本身的信息和政府所掌握的信息,包括经济社会文化和个人信息开放的标准以及规则问题,从法律法规体系来看确实还是有很多路要走。

具体来说,现在有一个现实中的问题和矛盾,即政府信息公开在 2007 年出了一个条例,基本上是一个粗线条的东西。我们首先要肯定这是很大的进步,因为中国社会从封闭走向开放肯定需要一个过程。本来人们期待是一部《信息公开法》,最后出了一个条例,打了折扣,不过毕竟迈出了重要的一步。

这个条例如果对照发达国家美国、欧盟、日本,应该说差别也挺大,我说的是差别,不一定说谁好谁不好。从立法原则和立法技术来看,《政府信息公开条例》是列举法,列举哪些信息要公开,这个范围就非常小。一般来说,国际上叫信息自由( FOI )和《信息自由法》( FOIA ),不叫政府信息公开,这是国际通用的名字。《信息自由法》一般采用排除法,它规定除了十类左右信息不能公开,以美国为例是除了九类信息以外,其他都要开放,所以我觉得这两者之间的差别是非常大的。从相关的法律法规的简单比较来说,我们现在的开放度还相对有限。

第二,《保密法》和信息公开的关系。

《保密法》最近几年应该说在某种程度上得到了强调,国家制定《保密法》当然有它的理由和利益,政府信息公开只是一个条例,《保密法》是一个法律,所以这在法律位阶上存在高下差别。

在政府信息公开方面,目前有一部法律跟统计没有什么关系的法律,叫《突发事件应对法》。那部法几乎从来不用,尽管在这个领域里突发性公共事件,特别是灾难性事件,像最近的地震,像昨天夜里陕西发生的车祸,在公开方面比过去大有进步。但是总体而言,《保密法》如何理解和实施,我觉得有很多问题要探讨。

比如《保密法》有一个原则是和美国、日本、欧盟不一样的。人家是规定相关涉密人员有保密的义务。中国《保密法》规定:“一切国家机关、武装力量、政党、社会团体、企业事业单位和公民都有保守国家秘密的义务。”也就是说,以数据为例,这个数据如果定为是保密的,哪怕是最低的“秘密”这一级,如果到了一个科研人员手里就有保密的义务。可是在那些国家,他是没有这个义务的,除非跟你签合同。如果不签合同,比如说哪一天我在路上捡到一个文件,在中国按照既有的法律,那你就有保密的义务。在那些国家是没有的,只要我没有通过非法渠道获得。

广义的保密法(不是狭义的《保守国家秘密法》)要求保守的秘密一般有三类:国家秘密、商业秘密和个人隐私。

这三类中,刚才许先生基本上没提到国家秘密,提到的是商业秘密和个人隐私。对商业秘密和个人隐私的保护,是任何一个现代法治社会和市场经济社会必然要有的法律,所以我对它的合法性、合理性是丝毫不怀疑的。问题是,在中国这样一个有保密传统的社会中,我担心最后不是基于保守商业秘密和个人隐私的考虑而对相关信息不予公开,尽管在国家统计局中专家型的官员们比较开明,你们在这方面也做了很多具体的工作,像许先生今天这个成果就是很重要的工作。

我担心的是,商业秘密好办,即便有纠纷最后诉诸法律,主要是通过民法来解决,后果也不是很严重,一般来说动不了刑法。但如果涉及泄露国家秘密,特别是出卖国家秘密,那一定是大刑伺候。我觉得基于保守商业秘密和个人隐私的考虑是正常的,我担心这里夹杂着一些官员出于种种考虑,因政府不愿意公开,而把一些数据纳入了国家秘密的范畴。

应当如何突破?这就需要像国家统计局这样的国家相关职能部门,又懂得经济社会发展总体目标、又懂得法律、又有行政权力这样的机构出面,统计局尽管只是一个副部级的单位,毕竟是有话语权的。

所以,这三类秘密之间的关系到底怎么样,我觉得目前比较复杂。

我不知道在座的各位刚才有没有看到,有一条最新的信息,《网络安全法》要起作用了,要通过《网络安全法》追究百度、新浪微博和腾讯的违法责任,而且这是一个权威机构发布的。这就增加了信息公开的复杂性,尽管它未见得涉及统计方面的数据。我们知道数据和数据之间没有绝对的区别,你说经济数据和人们的生活、和文化机构比如大学、科研单位没有关系吗?应该都是有联系的,所以这方面我还是有点担心。

反过来说,我更加钦佩许先生和你的团队做的这个事情,也理解你们的难处。我刚才比较赞同韩先生的观点,除了我刚才说的,我觉得有两个问题还是有些顾虑。

第一,目前向学术机构开放的方式能不能建立回避的原则,比如说你在清华建了这个中心,首先开放的信息最好先不要向清华的学者开放,而是向社科院或其他跟清华无关的开放。否则,就会培养出一些别人可能认为的特权学者,信息开放因为是逐步的,什么人能拿到呢?刚才韩先生说过,拿到这个信息简直是一个大福音,你研究的基础一下比别人不知道高了多少。

第二,韩先生刚才也提到,学术研究还是强调独立性,至少是中立性和客观性。如果研究要有利于提供数据的政府部门,这恐怕是有难度的。所以我完全同意刚才韩先生说的,只要人家不篡改数据,研究方法正确,程序没有问题,就要给人留下空间。

这方面是不是可以考虑先试点,比如说我们先做一些培训,有限地向一些相对来说学术水平比较高、学术自主性比较强,同时规则意识、法制意识又很强的学者,首先由他们来试用。我觉得倒没有那么过于担心,特别是刚才听了韩先生所讲,我本来比较担心的是商业秘密。商业秘密对我来说完全是陌生的,我不知道什么是商业秘密。比如说一个企业的正常经营状况、流水、纳税情况是不是商业秘密,普通的非上市公司和上市公司似乎又不一样,对上市公司监管也比较严。天则所以研究经济见长,各位专家一定有洞见。所以听了韩先生所讲,即便对商业秘密进行一些保护,目前来说从技术上也是有可能实现的。

至于个人隐私方面,我觉得担心的必要更小,为什么呢?因为目前个人隐私的范围相对比较确定,尽管有了互联网、有了大数据以后增加了它的复杂性。比如欧盟提出了一个所谓的“被遗忘权”(美国到目前为止不承认),增加了一些复杂性和难度。但总体来说,我看了一些中国法院有限的关于隐私权的判例,得到的印象是,中外在个人隐私,如果范围再扩大一些就是个人信息保护方面,其认知的差距以及立法上的差距不是很大,只是说我们作为一个发展中国家相对来说滞后一点。

最后有一个建议,我们最近几年做了一些国际比较研究。我们发现眼光看着美国、看着欧盟、看着日本很好,但是离我们很远。所以我的建议是对那几个砖头国家(我不称之为“金砖国家”),特别是像印度、俄罗斯,还有一些经济发展水平比我们的差距不是太大的一些国家和地区,比如说新加坡、中国台湾地区,因为它从经济起飞之前到后来经济起飞之后,一定在立法和司法方面积累了一些经验。

我个人觉得,根据我对诽谤法的研究,台湾的立法和司法的经验还是一个资源,离我们相对来说比较近,而且它经历了一个比较快的社会转型过程。西方国家相对完善,而且是一个常态社会,它早就那样了。最近几年虽然在信息公开方面,保护个人信息、个人数据方面有些新的东西,但总的原则它没有变化。比如说它强调保护商业秘密、保护个人隐私,而不是保护政府秘密,这就和我们国情差别很大。刚才许先生提到一句,“建立一个符合中国国情的法律法规体系”,这就太有学问了!

什么叫符合中国国情?我们有时候只能这么说,要具体去设想,特别是具体做一些立法和司法的工作时,其实特别难。比如说是不是要考虑领导的一些想法,这也是算中国国情,是不是要考虑四套班子的想法等等。所以我想像国家统计局这样的专业性的、权威性的机构,你们有这样开放的意识和观念,有业务上的专长,这在地方上是非常难寻的!尽管在 80 年代就成立了好多调查队,城市调查队、农民调查队什么的,积累了大量的数据,不过基本上是按照领导的行政指令来做事。信息要不要发布,基本上大部分都不发布。如何发布?领导说了算。具体而言,比如说你在一个地级市里面往往是由市政府办公室和市委办公室去把关,所以我觉得在这些规则和细则方面,希望拿出一些更好的东西。

谢谢!

主持人: 谢谢展教授,他提出中国《保密法》的问题!《保密法》存在很多问题,很多不是秘密的东西也保护起来,国家秘密、商业秘密、个人隐私,几种情况不一样,保护的办法也不一样,还需要作具体的讨论和研究!

下面第三位评议人是中国劳动关系学院文化传播学院院长、教授李双,大家欢迎!

中国劳动关系学院文化传播学院院长、教授李双

我今天完全是来打酱油的。我是抱着来学习的目的,来听许宪春教授的发言的。因为他讲的这个问题,和我的专业领域确实是隔得太远。如果说要有一点联系的话,可能就是信息的公开传播。所以我今天其实没有资格来作评议。昨天天则所李冰先生把 PPT 发给我,我就认真阅读学习,有的看不懂。今天看到活人现场讲述,印象就更深一点,也明白了许多。

说评议不大合适,只能说听完许教授的报告,临场产生一些想法,可能这些想法比较奇怪,作为专业人士会觉得非常肤浅,是完全不入行的想法。

首先谈谈我自己的感受。许教授讲的六个方面,我觉得直观来讲是非常有价值的。

它体现在实际上刚才展江老师讲的《政府信息公开条例》的价值上。条例是开了一个头,即便展老师对于这个条例好像不是很满意,我觉得在现在来看已经非常宝贵了。 2008 5 月开始实施, 2007 年颁布。即便就这样一个看似存在不少缺陷的条例,能够颁布施行就已经是难能可贵的了。今天我觉得都不敢奢望还能有类似这样的条例产生。许教授关于微观经济数据向学术界开放的政策建议,以尤其他以前担任过国家统计局副局长这样的政府高官身份,能提出这样的想法,我觉得真的很有价值。这个建议的主要内容,实际上就是政府一手掌控的不少信息向学术研究开放,本质上也就是向公民开放。因为政府拿着强大的国家资源,调查收集了这些信息,不能不说全部封存在你的手里是一种严重的资源浪费。本质上讲,只要不涉及到国家安全,像刚才展江老师讲的这些范围以外的,还比如个人隐私等等,政府是没有权力保密的。

我从许教授的报告当中就看到了他们这个研究团队的努力。以前政府统计局的领导,现在到了清华大学作学术研究,非常稳健地、富有价值地带领一个团队大力推动信息公开,我觉得非常难得,非常好。

我有几点疑问,可能非常肤浅,我都不好意思讲出来,现在说出来就教于在座方家。

第一,许教授报告中最核心的一个概念就是数据,我们中国统计当局的数据在全世界是有名的不确定或者是不准确的。到底客观、准确性的数据在哪里,我们也不知道。比如房价在货币通胀的数字中,是不计算在其中的。不少统计数据,依据什么程序、规则、条件开展的统计,怎么杜绝统计中的数字水分,反正里面有很多东西,一般的公民是不知道的,根本不晓得里头有什么猫腻。只听你宣布什么什么增长了多少,通胀了多少,听一个数字而已。有些数字统计的层级多,有意、无意的掺假。当然我相信许教授的人品、修养,他来做这样的工作,这样的国家统计局领导一定是对国家高度负责的态度来做这个统计的。不过我们很多从社会上、社交媒体上获得的信息来看,基层不少统计部门未见得是这样做的,即数据的真实性问题是最重要的。如果这个问题都没解决,它对学术开放没有意义。如果它的数据失真的话,我觉得实际上也是一个问题。当然这个问题实际上已经是另外一个问题,已经不是今天许教授讲的向学术领域开放数据的问题。但它涉及到学术研究和获取数据的价值问题,所以我觉得很重要。

第二,今天的报告提到很多对中国政府的建议,提得也特别好。在目前的可能条件下,已经讲得非常明确、非常透彻了。

我就在想,政府要向学术界开放这些数据的动力到底在哪儿,做一件事肯定要有动力。没有动力为什么要去做这件事?就像刚才韩教授讲的,小点的、几十万的课题都不敢和统计局打交道,要去拿数据肯定要上百万的费用。所以这里就有一个问题,要么国家统计部门去卖数据有经济上的动力,要么是有获得其他方面利益的动力,或者说比它更高一层的领导要求它这样做也有这个动力。如果没有动力,接下来就有一个问题,一定要让它向学术界公布的话,它就得有压力。这个压力是谁给它的,什么样的机制才能够给它这个压力?

我个人很不成熟的想法,是不是就像家宝总理 2007 年公布政府信息公开条例一样,咱们这些微观经济数据向学术研究开放的建议能不能某种程度上,不要说是更高的法律层面,就哪怕能类似于国务院颁布的信息公开条例一样的,形成一个专项的信息条例。如果把这个事往法制这个角度、条例这个角度上靠拢,可能就会更有价值一些,形成一个确定性规则性更强的东西。如果不是这样的话,政府既没有动力也没有压力的话,我想数据的提供实际上很难形成长期的互动机制。

第三,许教授这个报告的核心就是向学术研究开放。

这里也涉及一个问题,怎么理解和确定学术研究的问题。一般来讲,我们说到学术研究和意识形态是有一定距离的,或者说和价值观是有一定距离的,和现实的功利性是有距离的,这样才把它叫做学术研究。

而实际上像这种微观经济数据的直接应用质究,往往是与当前实际工作和社会现实密切关联,是有较强工具理性的研究。所以如果许教授的报告中对这个学术研究再作一个比较好的界定,比较具体的、明晰的界定,这样就免于有一些人用了数据以后得出的结果结论会踩红线。比如,有的人他可以说你这个不是学术研究,是怀着其他目的来研究的,这方面提的建议要更完善的话会更好。

到底怎么提建议,我也没有想清楚,因为这是很困难的事。比较坦率地讲,现在是用“学术研究”这样一个概念来标榜我们没有违背中国特色或者说没有违背主流的价值观,呆会儿人家说你违背主流价值观就违背了。没有清楚的界限,你就很难反驳人家的强词夺理。有时候我也糊涂,因为我看社会主义核心价值观 24 个字,读来读去,说实话我这个人很笨,读到最终,我觉得它和西方的普世价值观没什么区别,但我又不便说出来。

我说这个的意思是,学术研究也确实有脱敏的问题。刚才许教授说了好多要脱敏,脱敏的是具体问题。其实对研究也要脱敏,不脱敏的话学者也不敢去乱用你的数据,那你的价值就体现不出来了。你的价值是通过数据让学术界来充分研究,对我们政府的现代社会治理能力,对我们政府的行政能力、执政能力,也包括对执政党的执政能力,真正起到一个提高的作用。如果大家在这方面有点放不开,研究成果的功效就可能会大打折扣,所以我觉得所谓的学术研究还是要尽量地给它有一个比较明晰的界定。

第四,我特别赞赏许教授提到(第 7 页)其建议的重要意义时说到,为什么要开放这个数据,实际上它可以提高政府公信力。这非常重要。

因为实际上我们了解到,从一般的舆论舆情来看中国统计局网站公布的数据,其实绝大部分人、一般人是不重视的。但是公布这个数据的公信力相对说来是最强的,它比政府其他部门公布的不少信息的真实性要强多了。为什么要强调公信力呢?就说明我们学术界的介入会有另一个尺度或者说另一个维度,来研究、来审视这些问题,这就会起到避免政府某些方面的盲目与误区。这点我觉得许教授谈得非常好,对完善政府的统计工作、提高政府的公信力非常有价值。

第五,在 PPT 的第 16 页中,外国关于微观数据应用的基本经验,第三个大问题里就提到了有这样一个说法,这些数据的开放应用和成果发布必须有益于国家治理和学术研究。或者这句话从广义的角度说没有问题,肯定是有益的。不过如果是近切具体的一种判断,有时候到底什么是有益还是无益,是比较难判断的。只要是根据你的数据,符合逻辑得出的结论,这个结论有益和无益,其实是不重要的。关键是不是符合逻辑,是不是客观准确的,也即是不是真正的科学研究。

第六,“必须有益于国家治理和学术研究”后面一句我稍微有点保留,即“不得误用、滥用数据,不得损害政府统计部门利益”。因为政府统计部门的利益很广泛的,你如果是真正的学术研究,得出了一个科学的结论,这个结论恰好证明了政府的统计数据存在错漏,或者说存在一些问题,那怎么办呢?你也可以说它是损害政府统计部门的利益。许教授你讲的是特别有价值的建议,但这个问题不解决,把它推广、普及、具体实施的话,它的效用就会打折扣。

我谈这些很忐忑,因为本来我不懂统计。我之所以听了许教授的报告后觉得比较高兴,是因为我觉得任何信息向公民公开的都是令人非常高兴的事,而且也是政治文明的标志。

我就简单说说自己的感想,不对的地方请在座各位原谅指正。

主持人: 谢谢李教授!统计数据向学术界开放的动力问题的确是个问题,许教授原来在统计局工作,现在到清华搞研究,你是有积极性的,但统计局官员的积极性在什么地方,刚才讲,过去靠卖钱可能有积极性,卖的很高,现在不卖钱了,积极性又从哪里来呢?这是需要思考的一个问题。

下面,我们请国务院发展研究中心研究员吴庆来发言,欢迎!

国务院发展研究中心研究员吴庆

我早年就认识许教授。许教授有学者的风范,也有学术情怀的观点。这次我看到许教授的名字,我就决定来学习。后来得到邀请评论,也勉为其难地答应了。

刚才前面几位评论人评论的都非常好,我就我的想法再作几点补充!

第一,关于 CDC 的实践,即刚才许教授讲的实践方案,我很同意韩教授刚才说的话,这只是涉及到庞大数据的一小部分!

为什么说是一小部分呢?从数据的公布来说,从合作拿出来的数据来说,现实只是一小部分。有的数字是不是我听错了,抽样的是 16 万户数?(回应:对)

这是统计局下一步工作中需要改进的问题。 16 万户对于现在的调查来说,可能真的是挺小的样本了。在这原本不大的样本当中,再抽一次样,拿出来和科研人员们合作,可能这个数据在大数据的时代就真的太小了。

第二,顺带一个问题,未来建立的这些合作机构,其投入和产出是不是也需要核算呢?

你刚才也讲到装修、固定资产方面投资多少,你没说金额,是不是也可以给我们介绍一下。有了这些投入,预期的产出有什么,至少是从第一步来看的话并不是很多,预期的产出会有多少,是不是会限制一些学校投资的意愿。当然清华可能不缺钱,而其他一些学校、研究机构能不能出这笔钱,能不能愿意做这种固定资产投资,可能都会障碍。

第三,刚才几位也提到,第一步迈出去以后未来会怎么样。这一次迈出这一步,可能跟某一个特殊的人物有关系,可能跟你当年的身份有关系。如果只是这样的话,我们对下一步的期望是不是就降低了一些?预期收益方面,怎么预期未来?你给我们介绍一下短期作出的变化。

第四,还应该作一个方向性的评价。在现有的体制框架大致不变的情况下,能够有 CDC 这么一个变化,能迈出这么一小步也是非常好的变化。

第五,展先生刚才提到保密这个事,看到你这个题目我第一个想到的关键词——信息公开和保密这两件事情明显有冲突。

保密必须有,信息公开也必须有,重要的是中间这个界限怎么划定。现在看起来我们工作中感受的也是这样,保密的范围是扩张非常快,信息公开方面 2007 年到现在 10 年好长时间都不提了。我的感受是一边独大。在保密方面越来越扩张的这种情况下统计局会受到什么样的影响,统计数据的保密问题会受到什么样的影响。

我觉得从大的方面来说,考虑统计局数据公开的问题,旧的框架有两个,我们说经济学家的视角有两个,新的视角有一个。

旧的视角: 1. 保密和信息公开怎么办? 2. 统计数据的反垄断。

新的视角: 在大数据的时代,统计局该怎么办?

我觉得有眼光的官员坐到了统计局的位置上,看到大数据时代带来的变化,可能也会主动作出一些调整,这就回应刚才展老师提到统计局这方面的动力问题。比如说 16 万户对于现在的大数据公司来说根本就不个事,根本就不叫个数, 38 万家企业这个数量也不值一提。

2008 年金融危机的时候,最先看到危机影子的是阿里的交易平台,而且它当年作的报告就可以直接通过渠道递交到决策层,影响到当时的宏观经济政策。所以从新的视角来看,统计局是面临竞争的。

有一些互联网公司掌握的数据比统计局还要及时、还要准确。统计局的数据还是通过调查填表填出来的,可是交易平台是实时记录。当然交易也有作假的,刷单什么的,但谁的误差大就很难说了。成不成其为动力,我们统计部门有没有感受到、感觉到这样的动力、这样的动力有没有促进我们统计工作发生改变,也许许教授能给我们提供一点信息。

我就先提这些,更多的还是希望许教授多回应我们刚才的问题,谢谢!

主持人: 互联网发展起来以后,是一个去中心化的趋势,国家的统计工作是一个集中化的安排,现在你要打开一个缺口,符合去中心化的要求开放。不过互联网发展起来以后各种各样的信息都有。与此同时,民间的统计数据有些可能和统计局的数据交叉,这些数据统计怎么能够更好地发展起来。统计局如何推动民间数据的发展,又能够利用民间的数据,其实也是提出的新的问题。

几位评议人都作了评论,提出了一些问题,下面还有一点时间,还可以进一步地讨论。

天则所盛洪:

很感谢许教授带来的话题,关于统计数据的开放!

我一直是国家统计局的用户,我电脑上有一个快捷方式直通统计局的数据库,统计局已有提供的数据,当然很多都是宏观数据,对我们很有帮助,我经常会从中发现很多东西。

比如去年我在一个国际会议上就讲了两个数据。

1. 中国 2010 年以后所有新增就业都是由民营企业来提供的。

2.2015 90% 以上的新增 GDP 是由民营企业提供的。

在微博上发表以后有读者就质问我,他说你的数据哪儿来的,你有没有很严格的、科学的采集数据的方法。我说我怎么能采集数据,我用的全是国家统计局的数据,只不过不是直接数据,是间接数据,是通过对国家统计局的数据进行计算得来的,原始数据全都从国家统计局的数据中去找的。

我一直是一个受益者,而且这些年做了很多研究,包括像国有企业的研究、垄断的研究、有关行政部门的研究等等。我们大量的数据都是从国家统计局那儿得来的,即使不是直接的,也是间接计算而来,所以我还是非常感谢国家统计局做了大量的工作。

刚才许先生讲要进一步地向学术开放,我觉得应该是国家统计局作为提供公共物品的行政机构的题中应有之义,它本来就应该去开放。开放晚没关系,晚做比不做好。

下面讨论几个基本的原则问题。

第一,数据的性质是中立的。

有些数据表面上看对谁有利或对谁不利,我刚才说的那个数据好像是对民营企业有利,对国有企业不利。但它是中立的,因为它是事实,如果偏离了真实性,对谁都不利。所以要非常强调数据是中立的。

政府也应该是中立的。最简单的,政府不应该有自己的立场,政府就应该立足中立,包括政府的宏观经济政策、包括政府各种各样的操作、政府在法律面前都应该是中立的,不应该有相关性。所以,政府要做的事情,除了刚才讲的那些保密要求外,包括个人隐私、商业秘密、国家秘密等等,最重要的职责是保证数据的中立。中立包含了数据的真实性,包含了数据不能偏颇。

第二,政府就该提供公共品,而这个公共品国民已经付费了。

在提供这些数据的时候不能说没有动力,那国防军在敌人入侵的时候,能说我没有动力,谁给我钱?别忘了,国民已经给你支付费用了,这点非常重要。我觉得必须要有动力,这是法定的,不是说你想做就做,不想做就不做,你必须得做!就跟警察抓小偷一样。警察说不行,我没有动力,我在家歇着。不行,你必须做!这是一个基本原则,似乎不能有什么别的说法,说什么没有动力来做!

第三,所谓政府和国家的概念,首先国家是什么,国家就是这群人共同形成的制度,这种制度理论上要保证这群人的利益最大化。政府跟国家的区别是,具体的一群人受国家委托提供公共物品的。政府的行政部门又不一样,政府为了提供公共物品而分不同行政部门,行政部门跟政府整体还是有区别的。所谓的部门利益等等,它会夸张到了凌驾于政府整体利益之上,凌驾于国家利益之上,这是要区分的。所以我们在讲政府的时候,我们要讲它是一个理论上的政府和理想政府,即它一定是要提供公共物品,是要追求这个社会的利益最大化,不是这群具体进行操作的人,这点特别重要!

在提到这点的时候,包括“这是不是对政府有利”的考虑,其实要把它区分开来。如果那种理想的政府是为了向整个国民提供最佳的公共品,就要和这群人区分开来。政府官员或政府里的某些部门要区别于“政府”,不然的话就很麻烦!从某种意义来讲,对部门有利,政治上不正确,是不能说的。可能有些事情进行研究提出了一些现在工作的问题,甚至对政府某些正确的批评或不正确的批评。总而言之,批评机制恰恰是为了国家最大利益和政府的最大利益,而不是说政府到底好还是不好。对政府的批评,或者说揭露出政府工作中的问题,这可能是最大的国家利益,是最大的政府利益。所以要说清楚、分清楚,不然的话就很麻烦。

有人要利用所谓保密的规定,利用所谓不要损害政府的说法,其实是把部门的私利甚至把个人的私利放进来,结果是不利于社会的、不利于国家的,这要把它分清楚。

第四,到底数据放在什么样的人手里更好呢?讲数据是中立的,政府是中立的,研究者也应该是中立的,但不可能。

有什么办法使数据的使用中立呢?有办法,给所有的研究者提供数据。什么意思呢?因为所有研究者都有不同的角度、不同的立场、不同的理论,他们可能都不中立,但所有研究者都去研究,他们互相会辩论、互相会抗衡,互相得出不同的结论,形成整个社会的中立。我觉得这是特别重要的。

从这个意义上来讲,恰恰是完全的开放、向所有人的开放,才是真正有利于数据的中立使用。假如看你要不要说好话才决定是不是给你数据,这才是最危险的。因为你本来就有立场,本来就不中立,你说我就给那些会赞扬政府的,这就错了,它就不中立。

第五,我们是不是担心有人要滥用这些数据?肯定有人会滥用这些数据,毫无疑问。

怎么办?很好办,就跟我们宪法第 35 条说的,我们有表达自由。怎么表达自由?有人说的是错话怎么办?所以是不是就不能坚持表达自由这个原则?最简单的,真正解决这个问题的方法是用对话去反对错话,而不是不让人说错话。你不让人说错话就是不让人说话。你可以以他说的是错话为由不让他说话,就跟你说他滥用数据就不让他去用数据是一样。所以我觉得特别重要的一点在于,不要害怕那那些所谓错的话,错的话往往可以通过人们之间不同观点的交流,不同观点的看法去把它抗衡。我记得密尔说过,“我从来没听说过一个谬误不会被一个正确的话所反驳”。

所以,有人想滥用数据没关系,立刻就有人抓住他的把柄了,为什么?他的学者声誉就完蛋了,他想这样做可以,别忘了,天下不是你一个人在用这些数据,大家都看这些数据。更不用说我就给那个正确使用这些数据的人,不给那些滥用这些数据的人,这是不可能做到的。严格来讲,限制别人使用数据,标准也不知道从哪儿来,换句话说,要把这些基本概念、基本原则澄清,特别重要。所以,由政府规定谁可以使用数据是错的,不如由学术研究中的辩论和竞争来淘汰数据的错误使用。

第六,其实统计局也有压力。

我一方面是国家统计局的用户,另一方面非常深切体会到国家统计局的问题。除了刚才吴庆讲的问题,最大的问题是国家统计局的数据其实在衰减,它是熵值增加的。什么意思呢?

原来已有的数据突然哪年就没了,我们研究国有企业每年到底交多少利润, 2006 年以后就没了。为什么没了?我们研究国有企业,原来就有每年国有工业企业增加值这个数据,现在就没了,为什么?我觉得这是一个问题,我们研究国有企业非常艰难,是因为国有企业的占有国有土地数据我们不知道,我们是推算出来的。当然有人就批评我们,你看你们没有很坚实的数据,我说是没有,对不起,我很抱歉,你给我找出一个更好的数据。当然我心里也知道国家统计局也没给我。我觉得这些问题都要去想。

为什么会这样?实际上这个国家国有企业的比重那么大,最大的任务就是监督国有企业,国家统计局没有跟上,你的数据为什么没有跟上?我们都不知道。全是一堆模模糊糊的东西。国家恰恰要拿出更多资源去监督国有企业,所以国家统计局其实要有更大的压力。

当然像吴庆刚才讲的,我们看到很多令人震惊的大数据企业。大数据了不得,真是这样。在当今技术的条件下,数据获得的技术是突飞猛进的,我们怎么去做其实也是在竞争。现在很多研究是在大数据层面,甚至是直接从网上扒数据。我们不用国家统计局的数据,因为统计局没跟上,比如新经济这块是没跟上的,所以我觉得国家统计局是有压力的。

许教授所讲是一股新风,我们要思考怎么反过来去推动、去激励国家统计局能够朝着不断地挖掘新的数据,而且把这些数据不断地向社会开放这条路上继续前进!

我就讲这些,谢谢大家!

主持人: 盛洪提出滥不滥用怎么界定,界线在什么地方。既然开放,有多问题还是值得考虑的。

下面吴思来发言!

吴思:

刚才各位老师讲的让我很受教,很受启发!有一个争议之处,就是怎么判断可以不可以发布,由谁来判断,我想提一个建议。

第一,我原来在很多地方抄档案也会遇到这种困难,档案馆要看我们抄的,用他们的纸来抄。抄完了以后他们要审,有可能就不给我们了,说这不行。其实我抄的档案都是民国期间北京掏大粪的工人怎么闹事,怎么抢粪的这种事,他们也会受这种限制。因为涉及到社会动荡问题,他们可能上街游行了,这就变成敏感信息了。我估计将来这方面,学者费了半天劲弄的东西被扣了,这会成为一个争议的热点。

我提的建议是,已经做了那么好的事情,何不再往前走一步,建立一个可投诉、可救济的独立的中心,这又是一个制度建设。

比如说,像国务院研究中心(国研中心),还是有很重要的官方色彩,社科院官方色彩更浓,各大学,比较有代表性的还有统计局自身。找那么 9 个人作为一个裁决中心,由官民双方共同构成的裁决中心。作为学者抄的东西一旦被扣下了,有一个救济的方式向一个中立方申请,按照制定的标准是不是可以通过。别一个当时在场的人一拍脑袋说不行就给掐死了,这事就会闹的很麻烦。

一旦走出这一步,还有点学术界自治的意思,在机制建设上又让学术共同体有了一个自我裁决的方式。我建议选一些离退休的人,首先他们不在受现有单位的约束,相对中立一点,另外他们退休了,德高望重,都是老前辈,可能更在乎的是自己办的事是公道的。这些人最好有不错的声誉,学术界、官方都觉得这些人值得尊重,他们是温和的、稳妥的、客观的。

一旦有了这么一个中心作为裁决机构,就好像贸促会之类的,在国际贸易方面既不是法院,又是中立的裁决者。他们也收一笔费用,既然要裁决,作为学者提起裁决就会准备支付这笔费用。

比如说是清华大学数据研究中心,如果作为被诉的单位,他们也会要请人裁决,双方大概就要支付这个裁决费用。这个费用大家都支付一笔,也会使双方诉讼、起诉,或者包括将来的这个研究中心不能轻易地枪毙人家的东西,会变得比较认真,因为这涉及到双方都得掏笔钱。你麻烦了人家,让一批老先生花费时间看一遍这些东西,可能要半天一天的时间写一个意见,这些你得给人家一笔相应的费用。我觉得这些事情做起来是一个机制建设的、再往前走会逼出来的东西,我觉得现在就可以把它考虑考虑。如果立的法变得更加清楚、更加具体,像刚才韩老师说到的那当然更好。即使这个东西不具体、不精确,我们至少要有一个程序的正义,就是一个中立者的裁判。这是我提的第一点建议。

第二,刚才李老师问到动机问题,我觉得我有限体制内的生活经验,那 10 年都在农口,很熟悉他们的心态,争取尽可能地做正确的事情,做应该做的事情,能推一步是一步。我现在就在许老师的身上看到了这种色彩,我觉得完全可以理解,很不容易,非常令人尊敬!

谢谢!

(发言未经本人审定)

主持人: 吴思提出引起争议进一步解决的问题!

提问一: 许老师,我问一个问题可能有点偏,刚才你提的都是数据怎么公开的问题。在数据收集过程的当中,哪些东西该收集,哪些东西不该收集,能不能够解答一下?我前两天看到一个朋友圈,一年前买了一个飞机模型,一年以后就找上门上来,问他这个飞机模型有什么功能。后来他就反复解释这是模型不能飞,类似这样的数据哪些数据该收集、哪些数据不该收集,国家有没有相关法律,有没有相应的信息公开法律?

吴庆: 刚才盛老师的发言说到统计数据是公共物品,我觉得这可能还不一定,也许我站在统计局的立场上帮许局长说几句话。

为什么这么说呢?我跟统计局有一些当一些共性,刚才许教授在讲的时候我也在想这个事情,比如我们也得为我们的客户保密,统计局也得为客户保密,我们的性质很相似。从产业链的角度来说,统计局更像是我们产业链的上游,我们像是统计局产业的下游,我们使用他们的数据来作更多的研究。

还有,统计局的工作技术含量是越来越高的,不过它自己是一个政府部门,很多行为方式是按照行政部门来运作的。它能够获得的资源也是这样的,比如说工资、薪酬这些就决定了你能招聘到什么样的人。

不过这些投入、产出,咱们现在有对比,以前还没有对比,你和大数据公司可不可以对比,我觉得这很成问题。人力资源投资不足,产出来的产品,我们老说拿到一个统计局的数据我们想到底有多少可信度。但是再想一想,为了这个数据你们投入了多少,这可能也是一个问题。

怎么办呢?我们看到统计局也做了一些经营,比如收费等等,这是解决其投入的一部分。我们官僚体系认的投资就是认固定资产,我们科学家们、大学教授们都知道投入到固定资产上的问题,但是你要投入到人力上,我们的政府、我们的行政机构是受很大约束。所以统计局前期经营性的业务,我认为会帮助统计局维持工作的质量、维持数据的准确度会起到作用。

又回归到一个原理性的问题,统计数据是不是公共物品。它可能具有公共物品的性质,但必须要有足够多的投资去把它生产出来。当然,大数据公司和国家统计局是按照不同的原理来进行运作的。大数据公司有一套互联网的逻辑,用免费的逻辑来做。国家统计局是按照政府的行政体系来做,这两套逻辑现在已经发生了一些竞争。几年前,互联网的公司就愿意给我们提供数据,有限地开放数据给你们来处理。我们最后没有合作成功,是因为我们不具有处理这么多大数据的能力。

这两套逻辑未来会怎么竞争,我也没看清楚,其实也是抛出一个问题,请许教授回应一下!

韩朝华: 我补充一点,我认为这有不可比性,因为国家统计局的统计是有法律保障的,是强制的,没有人可以拒绝的,发到哪个企业不填吗?不可能的,这是民间调查公司再有资本也做不到的一件事情。所以,不能以这个理由来否定国家统计局的数据是一个公共物品。

吴庆: 我再说一点,有可能是一种分层,国家统计局可能有一些数据是必须公开发布的,政府要求你怎么做。还有一些数据,比如今天探讨的这些数据也有分层的问题。另外,强制性的数据收集,我觉得你是否做得到这也很难说。有些数据可能做得到,有些数据可能就做不到。比如入门调查,你可以强迫它做,但是它可以不认真做,这种做法其实也是没有意义的。

主持人: 好,还有一点时间你来回应大家的问题!

我觉得大家谈了好多问题,你现在是统计局的身份到清华试验这件事情,是一件好事情。真正要能够推开,要选一些不同的单位去做,清华是公办大学,能不能选一些私立大学,能够有不同的单位看看到底哪一个做的好,也有竞争机制。

另外,统计局现在官方系统数据的统计和民间调查的统计,现在民间有很多研究的需要或者业务的需要搞一些调查,比方当年南开的价格指数,过去民间有很多有权威的东西。现在统了以后,民间基本上没有什么东西了。这条途径我觉得和开放是同一个方向,这些东西在某些局部上确实有其科学的、真实的道理在里面。下面请许教授对大家提的问题作一些回应!

主讲人:国家统计局原副局长、清华大学中国社会经济数据研究中心主任许宪春

各位老师的发言从不同的角度出发,对我来说都很有启发。有的问题以前考虑过,有的问题还没考虑过,回答起来还挺有难度,我试着回答。

第一,吴老师建议成立一个第三方机构,来解决数据开发应用过程中可能会产生的分歧,我觉得是一个很好的建议。以前还没考虑过这个问题。我们现在的想法就是先把试点做好,然后能够复制推广,让国家统计局掌握的微观调查数据资源能够得到充分的开发应用。这是我们目前最主要的目标。看来无论是试点工作也好,今后的正式数据开发应用工作也好,肯定会遇到学者与数据开发中心和国家统计局之间对研究成果的评价存在意见分歧的问题。

比如说,一位学者开发应用政府微观调查数据得出了研究结果,数据开发中心或者国家统计局评审的结论是,研究结果不合理、不能发表,那可能就会面临纠纷问题。如何解决这样的纠纷,下一步要认真考虑。

韩朝华: 最好不能要求我的结论一定要跟你的结论一致。滥用、误用比较细的、可操作的标准,不能很模糊、笼统,不能你想怎么判就怎么判,否则对用数据的人来讲就很麻烦!

许宪春: 误用、乱用统计数据主要是从统计制度方法方面讲的,比如你用规模以上工业数据做出的研究结论,不加论证就推广到全部工业,出现了统计范围的跨越。

韩朝华: 这当然不会。

第二,关于收费问题。由于试点工作实际上还没有开始,所以目前不存在收费问题。将来试点工作开始了,需要考虑适当收取费用。收费问题的一个基本原则是一定要合理,得经得起检验。不能自己说合理,大家认为不合理。收费也主要是借鉴其他国家的做法,这个数据开发中心如果没有经费支撑的话可能持续不下去。数据开发中心不能盈利,但要有一定的费用来维护它持续运转,比如计算机的维护、服务器的维护、管理费用,不收取任何费用恐怕就持续不了。

第三,展老师提出的几个问题。首先是商业秘密、个人隐私和国家秘密的问题。国家统计数据确实存在这三个方面的秘密,而不仅是商业秘密和个人隐私,我这里为什么只讲商业秘密和个人隐私呢?从目前数据的提供情况看,只涉及到商业秘密和个人隐私。涉及到国家秘密的数据是不能开放的,任何一个国家都是如此。

第四,建立回避制度问题,现在没有考虑。国家统计局就微观调查数据开发应用在清华大学试点,不能把清华大学排除在开发应用范围之外。目前开放的对象暂定为有一定资质的高校和科研机构,高校初步定为 985 学校,经过试点之后还有可能进行调整。如果允许所有高校和科研机构都去开发应用政府微观调查数据是不现实的。国外也不是这样,美国也没有允许所有高校和科研机构都能开发政府微观调查数据。那样的话接待不过来,真正能做开发应用的高校和科研机构反倒会没有机会去做了。

我估计将来在全国再设立若干个数据开发中心,也做不到允许所有学者都去数据开发中心去开发应用政府微观调查数据,那是做不到的,因为受场地、受各种因素的制约,你只能选择一部分具有一定资质的高校和科研机构的学者到数据开发中心去开发应用政府微观调查数据。

第五,李老师提的几个问题。首先是统计数据的不确定性和不准确的问题。对于中国统计数据,存在这样那样的置疑。在提高统计数据质量方面,国家统计局是做了大量工作的。我没有时间细讲。

比如建立企业一套表联网直报制度。过去企业把填好的统计调查表报给县一级统计部门,县一级统计部门进行审核、录入、汇总,报给市一级统计部门,逐级上报。这各个报送环节,如果有人干预数据的话,很难发现。而建立企业一套表联网直报制度之后,在很大程度上抑制了这种通过中间干扰统计数据情况。

为什么呢?企业通过联网直报平台,将填好的统计调查表直接报送国家统计局。各级统计机构根据所赋予的权限对本地区企业联网直报数据进行审核,审核发现企业填报的数据存在问题的话不能修改,只能把问题反馈到企业,企业认为错了,可以修改。联网直报制度设置了留痕程序,如果中间环节修改数据就留下痕迹,国家统计局就会检查这些痕迹。这在很大程度上避免了中间环节对统计数据的干扰。其实,企业本身没有动机虚报数据,虚报数据一定是有外界因素的干扰。建立企业一套表联网直报制度之后,对数据质量的提高起到很大的作用。当然现在还没有杜绝干预数据的现象,比如有的地区有关管理部门代替企业填报数据,但是一旦发现就会严肃处理,干扰数据的成本提高了,风险加大了。

国家统计局实施企业一套表联网直报制度之后,确实对数据质量的提升起到积极的作用。

国家统计局还通过数据协调性评估的方式提高统计数据质量。比如有的地区某些工业行业增加值增长很快,而有关产品产量增长很慢,就要对这样的地区工业增加值数据进行检查,查实之后就要对数据进行调整。总之,统计系统确实做了大量工作来保障统计数据质量。

我也接触一些人,他们说,下面报的数据本身就不实,国家统计局的数据怎么会实呢?国家统计局为了保障统计数据质量确实也采取了一系列措施。为什么省一级 GDP 汇总数据比国家大,市一级 GDP 汇总数据比省一级大,县一级 GDP 汇总数据比市一级大,各级统计部门都采取了一些措施进行调整。国家统计确实做了大量工作来保证数据的真实性。如果经常使用统计数据的话,就会发现统计数据是揭示了经济运行的规律性的。

美联储的一位华人学者经过认真研究之后指出,中国官方统计数据是可信的。

第六,开放这些数据动力何在?

关于政府微观调查数据开发应用,我还没有退休的时候,宁吉喆局长就要求我负责研究这件事。从个人的角度来,我在统计局干了 30 多年,我有许多问题可以研究,我可以不做这件事情。但是,既然宁局长要求我做,而且我也觉得这件事非常有意义,值得做、应该做。尽管对我个人来说不一定是好事,但是我还是想努力推动这件事。

第七,大数据对政府统计有没有冲击。我觉得大数据对政府统计的冲击是存在的。但在目前的情况下,大数据还不能取代官方的数据,将来怎么样,那就看大数据的发展情况了。统计最讲究的是代表性,目前某些领域的大数据非常详细,具有代表性;但许多领域大数据还不具有代表性,所以还代替不了政府统计。

对于大家提出的问题,我只是按我的理解做了回答,不一定令你们满意,有的问题也没考虑成熟,希望大家批评指正!

非常感谢!

主持人: 今天许教授给大家介绍了数据开放的事情。我觉得既然开始试验,慢一点没关系,走的稳当一点,做的好一点,希望能够早点成功,能够把这个事情推开,使学术界能够真正用上政府数据,我想这是大家期盼的事情!

感谢许宪春教授,感谢几位评议人和参与今天会议的各位!

会议就到这地里,散会! < 全文结束 >

点击:


文章版权归原作者所有。
二维码分享本站