度量公共治理

2007-09-28 作者: 周业安

天则双周论坛

原文 #天则双周论坛的其它文章

度量公共治理

时　间： 2007-09-28

地　点：天则经济研究所会议厅

主讲人：周业安

主持人：盛洪

评议人：茅于轼杨晓维温来成张昕韩朝华

实录

盛洪：双周已经持续了十四年，每次几乎都是全文放在网上。从主讲人的报告到评议再到争论，记录是比较完整的。今天的周业安教授要做的报告是天则所的一个课题——度量公共治理。这个课题是茅老师牵头的，周业安是研究核心力量。这个题目很有意义也很有难度。公共治理是政府要提供的公共服务，对政府的服务的评价涉及到对政府绩效的判断。同时，虽然实际不存在竞争（政府是自然垄断的），但是对不同地方的政府进行评价可能会有助于建立一种标尺竞争。这样，就可能促进政府努力改进其工作。难度较大是因为公共物品是不能直接由市场度量的。它不是竞争的而是自然垄断进行提供的，同时又是非排它的，所以不能用市场机制来评价它。因此，我们作为经济学家就会进行这样的工作，试图评价政府提供的公共治理的质量和数量。我就不再多讲了，请周业安教授给大家详细地介绍。

周业安：感谢各位老师以及朋友来参加这次论坛。首先简单地介绍一下这个项目的背景。这个问题首先是由茅老师和天则的杨培鸿想到的，也就是如何度量公共治理。当时立了项以后的参与者有茅老师、杨培鸿、清华的贾西津等人。这个问题的前一部分和我们之前做的对经济人权的研究有关。研究经济人权的时候，我们的想法还不是很成熟。我们开始想到的是用一些客观的指标度量经济人权。后来发现效果不是特别好，所以在第二个阶段的时候，我们尝试用调查的方法解决这个问题。由于对企业进行调查比较困难，所以我们只进行了居民调查。

现在就讲一下我们是如何设计这个调查，如何通过这些数据获得对于公共治理的量化分析。和茅老师商量以后我们将这个主题分成两个部分。我今天先和大家讨论具体的度量方法，然后由清华的贾西津老师来谈一谈度量背后的公共治理的背景。因为公共治理是一个很特殊的概念，不把背景讨论清楚可能使得讨论度量存在一定的困难。

一、研究背景

这个研究的背景是现在的社会公共问题越来越突出。关于公共问题各位老师有很多的研究，比如收入分配问题、公共安全问题、公共卫生问题等等。我们认为产生现有问题的根本原因是现有的公共治理机制的失灵。国内现在对公共治理的规范的讨论比较多，但是实证数据比较少；单方面的评价数据比较多，全面的评价数据比较少。相比之下，国外的公共治理评价是非常繁荣的。按照Malik(2002)的说法，治理评价指数已经成为一个产业，迄今种类不下150种。评价单一的时候不能排除评价机构由于本身利益性的考虑可能有公正性的问题。评价多了以后，评价机构之间的竞争会使得判断更加客观。所以，对于公共治理的评价，多一点比少一点好。

目前国际机构对中国公共治理的评价建立在国别基础之上，在地区层面较少。目前国内地区层面的评价代表性的有三个：第一，国际复兴开发银行和世界银行对中国120个城市竞争力的评级，其中涉及到政府效率评价；第二，樊纲、王小鲁和朱恒鹏（2007）等开发的市场化指数，通过一系列调查数据和客观数据来评价各地区市场化程度，其中很多指标涉及公共治理的内容；第三，陈昌盛和蔡跃洲（2007）首次对各地区的公共服务水平进行了系统评价，采用了标准的绩效度量方法，依据客观数据给出了地区公共服务水平的排名，其中的主要内容也构成公共治理的一部分。这是较为三个有代表性的比较全面的评价，其它单方面的评价就不一一例举了。这三个评价中前两个涉及部分政府的权利运用问题，但没有从权利合理配置的角度来评价，或者说没有就公共治理的本质问题进行评价；而后一个是纯粹的公共服务绩效评价，没有涉及权利问题。正在进行的有世界银行对中国部分城市的公共治理评价，以及天则经济研究所对全国30个城市的公共治理评价。

二、国外的公共治理评价

公共治理评价和公共治理的定义有关。公共治理作为一个新的范式，学者们的理解也不尽相同。归纳起来，主要有以下代表性的观点：第一种，把公共治理看作政治品（political goods）。它主要由政府提供，其他组织和个人也可以参与。持此种观点的学者有Besançon（2003）、Rotberg（2004）、Rotberg和 West（2004）。第二种，把公共治理和代议制民主等同起来，看作是民主制度的一个组成部分。持此种观点的学者有Apreda（2005）。第三种，把公共治理看成一个经济体或者社会中权威或者权力（权利）的实施。至于实施的主体可以是政府，也可以是非政府组织或者单个社会成员。推行此种理论的学者有Huther 和 Shah（1999）， UNDP(1997)，世行Kaufmann等人。第四种是利益相关理论，代表学者有Bovaird和 Loffler(2003)， Huden和Court(2002)。这种看法和欧洲对治理的理解一脉相承。我们知道OECD出台了一系列的公司治理准则，其核心也是利益相关理论。第三、四种看法分别在英美和欧洲占据主导地位。第五种，把公共治理看作是制度、行为和过程构成的一个系统。代表学者有Rhodes(1997:15)，UNDP（2006a）。第六种，把公共治理看成一个多元化国家中不同组织（政府和非政府）和个人共同决定和生产公共服务的机制和过程，代表学者是Osborne（2006）。这种看法类似以前德国的公司治理中提到的共同治理的概念。虽然定义不同，但是涉及公共治理的三个基本问题是共同需要面对的。

Bovaird(2005)把这三个问题归纳如下：首先，公共治理是一个规范概念还是一个实证概念？研究公共管理学的学者可能认为关于公共治理的讨论是规范性的、是包含某种价值观的。从经济学的角度讲，公共治理又是实证的概念。公共治理到底运行到了怎样的程度，如何用数量的方式表达这些公共治理，如何通过这种表达改进治理？也就是说实际层面的运行和绩效也是我们关心的。这两个方面有脱节的地方。

其次，政府和市民社会在互动网络中的相对作用如何？公共品必须满足两个特征：非竞争性和非排它性。政府提供这样的产品可以被看成是公共领域中的一种治理方式。除此之外还有其它的方式，比如科斯的谈判方式、布坎南的俱乐部方式等等。这些私人的方式也会引入进来，但是他们在系统中如何相互作用还不是很明确。后来的公共治理运动把政府、市民都看成公共治理中的平等主体，谁提供的效率最高就由谁提供。在很多领域，更多人强调的是政府和市民的合作提供。这经常被称为公共服务的合作分散。这个公共服务不仅仅是纯公共品的概念，还包含了有私人物品特征的公共服务的概念，比如教育、医疗。在经济学中，这些不一定是私人物品。但是在很多公共经济学家看来它们又是公益品，具有强烈的外部性。它们可以由政府提供，但又不是必然需要政府来提供。其中强调的是政府和市民在公共治理中形成的互动网络，这种互动网络中政府和市民是平等的合作的关系。现在公共治理运动中的新的趋势，也就是强调合作而不是对抗。这和过去的两分法不太一样。

另外，如何对治理原则和效率进行权衡？在经济学中，我们认为在理性状态下小政府是最好的。这种观念就是一种治理原则。不同的看法涉及不同的治理原则。有些人强调最小政府，有的人赞成大政府。不同治理原则会体现在公共治理的不同的制度安排上。相应地，治理原则是人们评判公共领域中的治理的好坏的标准。我们要考虑这些治理原则能否实施，在实际运行中的表现。所以治理原则和效率的问题就是规范和实证的问题。

以上三个问题都会影响到公共治理的度量。公共治理治理度量会引起较大争议，原因就是其中的概念分歧很多、关于度量思路和理论模型的分歧也很多。在公共治理运动达到高潮的现在，仍然存在传统和现代的公共治理运动的冲突。不同的治理观念会带来相应的度量方法。并且对不同数据类型和采集方法的依赖也会产生不同的评价效果。从目前国际上所流行的评价方法看，种类虽多但从大类上可以划分为两类：基于客观数据的评价和基于主观调查数据的评价。

先看看基于客观数据的评价。第一类是依赖各国和地区的统计数据，设计恰当的指标体系进行公共治理评价。典型的是Rotberg在哈佛大学肯尼迪学院发起的公共治理评价的系列研究。其中很多指标类似于公共服务绩效的评价体系。经过仔细研究，我们觉得他的这种评价体系没有脱离绩效评价的范畴，和我们所理解的公共治理的评价有一定的距离。Rotberg是一个坚持客观数据的代表人物。他认为所有主观数据的度量都是错误的，只有他的客观数据的度量是正确的。另外还有UNDP的人类发展指数，这和公共治理有关但不一定有绝对的关系。

第二类是依赖事件记录和量化。比如，把各国和地区一段时间内发生的和公共治理相关的时间记录下来，形成数据集并由此进行评价。最具代表性是人权观察组织对各国和地区侵犯人权事件的记录和评价。人权评价本身是公共治理评价的一个核心部分。人权观察组织把每个时期各个国家和地区侵犯人权的事件进行记录、形成数据，然后将这些数据量化来进行评价。我们当时在讨论的时候，张老师也提出过观察当地的市容市貌，将之记录下来形成评价。后来，因为经费等问题，我们放弃了这种方法。

主观调查数据方面的数据很多，现在对公共治理的评价也主要是基于主观调查数据。主观数据评价的种类非常多。有针对公众的意见调查，有专家意见调查，有企业意见调查，有特定群体意见调查等等。不同的调查方法所采集的数据质量和信息量是不同的。从目前实施的各种方法看，各有千秋，相互之间有一定的互补性。世界银行已经试图把一些重要的数据库综合起来，形成一些综合指标来评价公共治理。这是一个非常好的尝试。

客观数据的度量方法刚才已经提到了两种，下面简单地介绍一些单项指标。1、最简单的客观指标就是Clague等人（1999）提出的合同密集型货币指标（Contract-Intensive Money，CIM），它是非流通货币占货币供应总量的比例，即CIM ＝(M2 - C)/ M2。一个国家中的公共治理水平越高，人们就感觉自己的财产越安全（也就是越不会持有通货）。这是他们的逻辑，由此进行度量的效果还不错。2、Rotberg（2004）以及Rotberg和 West（2004）提出了六个方面的客观指标：法律规则、政治自由、经济绩效、基础设施、教育和医疗。每一个指标下面都有一系列的子指标进行度量。3、UNDP人类发展指数。4、Djankov等人（2002，2003）对开办新企业的花费的测度。5、Knack and Kugler（2002）等人通过测度装电话的等待时间、电话错误的数量等来度量公共治理。6、菲律宾政策研究中心（the Philippine Center for Policy Studies (PCPS)）从1999年启动了一项善治和地方发展指数（the Indicators of Good Governance and Local Development）计划，2003年完成。该指标简称 GOFORDEV Index，提供了地方发展所需善治的客观度量指标。

再看看主观数据测度的代表性方法。1、Kaufmann, Kraay和 Zoido-Lobatón （1999a，1999b）构建了一个全球治理数据库（the Worldwide Governance Indicators，WGI)。数据来源于其他13个不同组织1997和/或1998年的主观调查数据，比如自由之家的经济自由调查数据等。来自不同数据库的相关的31个指标经过综合形成三个总体指标——法律规则、政府效力和渎职，以此来反映治理的三个基本方面。这三个总体指标覆盖了166、156和155个国家和地区。为了获得综合指标，他们采取了不可观测成份模型（unobserved components model）来估计治理指数。其后，Kaufmann, Kraay和 Mastruzzi（2002，2004，2005，2006，2007）不断修正了这种方法，并扩大了数据来源以及数据的覆盖面。在最新一期治理评价报告中，该治理指标体系已经包含有六项综合指标：呼声和责任（voice and accountability）、政治稳定性和暴力免除（political stability and absence of violence）、政府效力（government effectiveness）、管制质量（regulatory quality）、法律规则（rule of law）以及腐败的控制（control of corruption）。指标覆盖面达到212个国家和地区，时间是从1996到2002年。这些总体指标包含了几百个度量治理感知的单个变量，这些单个变量的数据来自30个组织构造的33个独立的数据库。2、顾客满意度测量法，比如美国顾客满意度指数（The American Customer Satisfaction Index ，ACSI）。这个度量纯粹是把公共服务的好坏与其消费者的满意程度相关联，通过问卷调查获得顾客对公共服务的满意程度的数据，形成满意度指数。然后用这个指数来评价公共治理的好坏。这类似于商业调查中对企业服务进行的调查。这个指数现在每年都会发布。因为涉及到所有居民的主观判断，对政府的影响很大。3、治理国际（Governance International）发展的一种多元利益相关者评价模型（the GI Governance Health Check），即多元利益相关者3600评价模型。这个模型中有一个像飞镖盘的图。一个图划分为几块，分别代表不同的治理层次。不同层次可以旋转，外围代表不同的顾客。这和测量顾客满意度的方法类似，不过评价方式是多层的。4、Bovaird和Loffler(2003)在利益相关者论基础上发展的过程评价法。过程评价方法更重视的是公共治理的程序问题。他们认为公共治理的绩效评价是结果，结果很多时候是有偶然性的。比如经济发展了、大家都有钱了，可能人们会觉得公共治理也改善了。但是经济发展和公共治理的程序的改变并没有必然的联系，经济发展了人权不一定会得到改善。5、Court, Hyden和 Mease（2002）等人提出的专家意见法。他们认为简单地从居民的角度去测度存在很多问题。因为居民可能本身对公共治理这个概念不太理解。从居民的角度来评价偏差很大，应该从专家的角度进行评价。他们在每个国家或者地区选择35~40个专家，让其打分。他们自己也承认这种方法有很大的缺陷性。首先是专家的选择问题，还有就是打分的时候有相互交流的过程。如果小组的领导人不服责任或者在这方面不是很在行，采集的数据就可能非常无效。

有人试图将主客观数据结合起来，比如Malik(2002) 、Huther和Shah(1999)等出了将部分数据和部分主观数据加总。我们当时也考虑过采取这种方法，但是担心在加总的时候会存在一些问题。如果客观数据样本和调查数据样本不一致，加总时就会产生困难。最后我们放弃了这种方法。

关于度量方法，到现在仍然存在很大的争论。首先，不同的治理概念会导致数据采集方案的差异。有些定义可以通过客观数据来度量，而另一些定义则只能通过主观数据来度量。对于两种度量方式孰优孰劣，大家争论不休。其二，既然治理是多元的、系统的概念，是否需要把所有的维度都考虑进来？有的数据的评价是很有侧重的，比如专门的腐败度量、政府信任度量、民主治理度量等等。有的度量则包容宽泛。不同口径下会导致不同的度量效果。某如果定义较窄，那么需要度量的维度较少；反之，需要度量的维度就较多。那么是不是维度越多越好？这就是治理度量当中单一指标和综合指标的争论。可以说，这两大问题的争论贯穿于治理评价的始终。Kaufmann 和 Kraay（2007）明确地指出：相对于试图度量的特定治理概念来说，任何特定的治理指标本身都会存在度量错误；相对于更宽泛的治理概念来说，任何特定的治理指标都是不完美的度量。最近的一些争论（比如WGI提出的第二代治理指数，以及类似的其他人提出的可行动的治理指数等）归纳起来都可以看作以下两个方面：关于主观度量和客观度量的争论以及总体指数和个体指数的争论。

三、天则所公共治理评价思路

公共治理本身不是一个很清晰的概念，它的度量也不是一个清晰的概念。这给我们的研究带来了很大的难度。我们需要清晰地提炼出自己的看法以及度量的思路。下面就讲一下我们在做这个研究的时候采取的评价思路。

下面给出我们关于公共治理的定义。公共治理就是确保公共领域中相关契约达成、实施和救济的一系列制度安排和作用机制，它通过权利的合理配置和机制设计来实现集体福利最大化。这个定义有以下几个主要方面：1、公共治理是为了解决公共问题的。所谓公共问题，并不局限于纯公共品而是可以包含准公共品以及外部性产品（如公益品）和行为。所以我们度量的不一定是纯粹的政府行为，我们提出的公共治理的度量不是政府绩效的度量，而是在公共领域中的公共治理机制的度量。从我国的现状看，公共治理机制的主体是政府。2、公共治理本质上是集体行动，也就是公共选择过程。既然是公共选择过程，就不可避免地会出现免费乘车现象。公共治理就是通过合理的机制设计和权利安排来有效降低公共领域的交易成本（即政治交易成本）。3、由于公共治理涉及集体利益，就必然存在一个规范性问题。究竟什么是好的公共治理，即善治的标准是什么？和单纯的私人治理不同，在私人领域中只需要考虑资源最优配置。但在公共领域，不仅要考虑资源最优配置，而且还要考虑交易的公平性。也就是说，公共治理必须做到公平和效率的统一，也就是社会福利最大化。4、公共治理是公共选择过程，那么就存在多个参与人。也即，集体利益目标是利益相关者目标的加总。加总过程实际上就是一个社会谈判过程，即政治过程。按照规范的理解，如果这个过程能够保障每个社会成员的利益，就是好的。而好的唯一标准就是布坎南倡导的一致同意原则。5、公共治理作为一个权利配置过程，所涉及的权利和私人治理不同。在私人治理中，财产权是最重要的权利。而在公共治理中，财产权仅仅是一个方面而已。不同的公共问题和人们相应的权利需求相对应。纯公共品对应人们的最基本的权利需求，也就是对生命安全等公民权利和政治权利的需求；准公共品和外部性产品和行为对应人们其他的权利需求，主要是经济、社会和文化权利需求。6、公共治理同时又表现为一个机制设计的过程，借助不同的治理机制来更有效的配置权利和资源。这些机制包括市场、关系和政府等一系列环节，不同治理机制的采纳取决于相对应的交易成本的大小。

我们认为公共治理有两个需要度量的基本要素。将这两个基本要素提炼出来以后，所有的度量都是围绕其展开的。一个要素是权利。和私人治理类似，公共治理本质上也是权利的配置。这一配置分为两个层次。第一层次是基本权利的配置。基本权利主要是公民权利、政治权利、以及相应的经济社会文化权利。第二层次是和公共资源有关的权利的配置。另一个是政治过程，就是如何保障和实现这些权利。如果我们指望仁慈的政府，就会依靠政府去实现。如果我们接受布坎南的观点，我们就需要一个明确的民主制度保障自己的权利。不同的民主形式在权利保障方面的作用又是不同的。我们要考察的是我们的政治过程是怎样的。

权利和政治过程合起来就会产生一定的绩效。如果权利和政治过程与绩效之间是简单的线性关系，那么我们就可以通过公共服务评价来度量公共治理。但不幸的是，这种线性关系并不存在。我们看到，一些实行民主的政体并没有获得好的绩效，而一些集权政体反而有高水平的社会经济发展。因此，单纯从绩效角度来评价公共治理，显然违背了公共治理的本意，对改进公共治理没有帮助。我们主张应该从公共治理本身的基本要素来评价。这样才能还原公共治理的本来面目，在这种评价基础上才能更好的提出改进公共治理的建议。

为了度量我们刚才讲到的两个基本要素，我们的二级指标（一级指标是公共治理，二级指标用于体现公共治理的不同的方面）有下面几个。1、公民权利和政治权利。按照这一权利的内涵，我们通过言论和出版自由、对私权的保护、对自由的保护来加以度量。由于我们打算度量地区，所以国防就没有考虑进来。因为国防是一个国家的整体事务，和各个地区无关。2、社会权。国内法学界通常把经济、社会和文化权利统称为"社会权"，它定义了人们在教育、健康、住房、劳动等方面所享有的权利。按照社会权的通常定义，我们把该项权利分解为公共安全（不含国防，是日常生活中的安全保障）、交通、教育、劳动、环境、公共卫生、住房、社会保障、基本建设等方面加以测度。3、政治过程。其中，关键要体现政府权利的行使、政治过程的透明度和居民的可参与程度。对于居民的参与程度，开始存在很大的争议。最初讨论的时候，有些学者认为考虑我们国家的居民的参与问题作用不是很大。但是从我们的角度看，有参与和完全没有参与是两个概念。在现在有不同渠道参与的情况下，如果忽视参与就无法完全反映政治过程中居民的力量。也就是说我们可能会夸大政府的作用（无论是正面的还是负面的作用）。而且，随着经济的发展，人们参与的领域越来越多，参与的程度也越来越强。政治过程只有体现了利益相关者之间合作管理公共事务、共同生产公共品，才称得上是现代的公共治理。当然，现实的公共事务管理可能就是一个简单的行政管理模式，但我们在评价公共治理的时候，不是为了描述现状，这是我们一再强调的。政治过程就可以分解为行政程序、民主、参与、信息公开、效率、司法和执法等几个方面。其中司法和执法被放入行政范畴中。因为在我国这种政治架构下司法和执法还没有分立，不能将之作为单独的方面进行度量。4、政府廉洁和政府信任。前面三项已经足够表达我们的需要度量的方面了。但是考虑到可能有在技术化处理中被忽略的指标，我们设计了两个综合指标。政府廉洁可以综合体现整个行政管理体制的运行效率和结果绩效；而政府信任反映了居民对政府的整体认知水平。我们通过这两个总体指标的设置来调整前面单项度量的结果。

在度量方法上，我们采取主观数据度量中的公众意见法。没有采取专家意见调查法，因为我们认为在国内进行专家意见的调查不太可靠。虽然专家对公共治理认识较多，但是他们的意见可能是偏度较大的。如果采取特殊群体的调查方法，如何甄别特殊群体、如何进行特殊群体的抽样又是难度较大的。例如，只分析某个年龄段或者只分析女性受调查者都是无法进行操作的。考虑了经费、人员、方法的特点，我们最后选择了公共意见法。这个方法类似顾客满意度评价。公众意见法的本质在于把当地居民看作是一个当地公共治理的重要利益相关者和消费者。他们对公共治理的主观感受反映了当地居民所认为的所享受的公共治理服务水平，以及他们对公共治理本身的认知水平。我们对某个地方的公共治理进行度量得出的结果会反映居民对当地的公共治理的普遍看法。这个普遍看法可能是有偏差的，但是如果一直使用这种方法，第二次、第三次的研究结果就可以反映出当地居民的感受的变化。这样的效果就会很好。通过一定的抽样方法，我们可以获取各地的样本。通过对这些样本进行询问，我们就能够获得样本在主观上感知当地公共治理的重要信息。基于这些信息，我们就可以给出可比性的度量和评价。我们做了一个假定：当地的公共治理水平和当地居民对当地公共治理的主观感知度存在线性关系。这就意味着：如果当地的公共治理水平好，当地居民对其的主观感知也应该好。不会出现这样的情况：当地的公共治理水平很差，但是当地的居民却反应良好。我们还假定：我们通过抽样得出的样本对当地公共治理的主观评价程度反映了当地的居民总体对当地公共治理的水平的一般认识。

以对教育的测度为例。设计的问题是：1、在过去两年里，您家为孩子上学大约花了多少赞助费/借读费/择校费？2、对他（她）在学校里的各种教育花费（包括学杂费、补课费、文具、校服等），家里感觉负担重吗？如果家庭中有没有上学的适龄儿童，我会问这个问题。3请问他（她）没有上学主要是什么原因？4、请问您对教育方面的表现满意吗？5、在过去两年里，您认为当地对于教育，是有很大改善，一点改善，没有变化还是更加退步了？4、5两个问题是对教育的直接满意程度的度量。最后两个问题是对教育感知的正面判断，这样设置问题是为了对冲前面的问题导致的回答偏差。前面强调了负担可能会给人负面的感觉，我们后面就提出了正面的感知，看看居民的判断是怎样的。6"政府在努力减轻家庭的教育负担"，对此说法，您是非常同意，比较同意，不太同意还是非常不同意？7、 "政府非常重视教育"，对此说法，您是非常同意，比较同意，不太同意还是非常不同意？

对于全面度量公共治理，我们在国内是第一个做这项工作的。是不是做得很好，我们也不是特别有把握。因为公共治理这个问题太复杂了。但是我们希望这个研究能够对国内关于公共治理的理论和实践作出一点贡献。研究中可能存在一些不足。研究中可能存在一些不足，我们归纳了这几个方面。1、定义和指标分解是否恰当。我们将之定义在权利和政治过程上，是否恰当有待讨论。2、我们采取了公众舆论调查方法，试图从居民的主观感知程度来度量公共治理水平。如前面指出的，这需要两个假定：一是居民主观感知和实际的公共治理水平成线性关系；二是样本数据能够代表总体，反映一个地区的一般公共治理水平。第一个假定成立与否和居民自身的认知水平、偏好、文化和制度背景甚至情绪等都有关系。比如，以前世行在非洲进行调查的时候，南非经济发展好的时期人们的满意度会非常低。在有一些国家，发展得不好的时候满意度很高。不是说所有样本都会出现异常，但还是有这个可能的。我们调查的三十个城市，可能其中两三个会出现异常。第二个假定和样本采集方法有关。由于经费的限制，我们当时采集的样本的数量不是很多，方法也值得进一步讨论。这个调查是委托零点公司进行的，他们也出具了技术报告。据他们分析，数据的可信度是不错的。3、公共意见调查法只能测度一个地区居民的一般感知程度，但不能测度特定群体的感知。比如腐败的感知很少发生在普通居民身上，我们的方法就会低估这方面的感知水平。我们原先试图通过企业调查进行这方面的测度，但是由于管制问题这个调查无法实施。在度量公共治理的时候，对那些特定群体的度量又是很重要的。虽然很多时候权利被侵犯的只是少数人，但是权利被侵犯对这少数人却是事实。这种人的权重就得不到体现了。除非按照人权观察组织的方法，把这些特殊事件收集起来作为实证。现在我们通过公众意见调查没法体现这些方面。比如农民工的权益保护我们就没法体现。我们采取的是住户调查，所以搜集的样本是常住居民。这样就可能使得数据的搜集受到限定。4、在一些技术细节上同样存在诸多值得改进的地方。一是问题的设计是否能够充分显示必要的信息？在讨论的时候，大家提了很多意见，我们也吸收了一部分意见。但是由于操作上的问题，还有一些意见没法吸收。二是问题的赋权是否合理？进行调查以后，我们要将结果代入可计算的公式。做这个工作的时候需要对一些数据分别赋予权重，关于怎么赋权也有很多问题。三是评分的方法是否恰当？我们最后是算出总权重，这样使得数据有可比较性。合成指数的方法很多，比如等权重法、专家打分法（专家给出权重）、成分分析法等等。但是其它方法不能保持结果的时间序列性。权重方法的好处在于权重稳定，这样各年的数据可以比较。这也是通行的方法，但是都有待进一步讨论和改进。

最后再捋一下总体思路。首先下面这张表（表一）将各种不同的治理观念和相应的定义、度量方法进行了汇总。可以看到，不同的治理观念所得到的治理方法以及相应的结论都可能很不相同。但是现在也有学者研究不同的度量方法得出的结果之间是否存在相关性。我看到的这方面的文献的判断是比较乐观的。也就是说，不同的测量方法得到的结果之间的相关性是比较高的。只有个别结果出现异常，大部分还是保持一致的（只是程度不同）。

下图（图一）描述了公共治理评价指标体系。这个公共治理指数由四个分指数组成。这些分指数包括公民权利和政治权利、社会权、程序正义以及综合指标。第四项是对前面三项的调整，通过一个整体的印象来弥补单项测度的有偏性。在每一项指标下面又有一些分指标。每一个分指标都对应若干问题，这些若干问题就组成了问卷。通过问卷调查，我们获得了相应的数据。

关于评价方法，我们在充分考虑了已有的评价方法以后做出了一些取舍。然后，提炼出了自己的评价方法，将之称为过程评价和结果评价的统一、单项评价和综合评价的统一，并且以主观评价为准。过程评价和结果评价的统一说的是我们关于权利的评价考虑的是结果，权利是否得到了好的保护这是公共治理的结果。我们理解的公共治理的结果和有些学者不太一样，有些人将之理解为公共服务的绩效。但是我们认为这和公共治理本身的含义有一定的偏离。我们认为公共治理的核心在权利层面上，其目的是保护人们在公共领域当中的权利。所以公共治理的结果应该体现在公民的权利是否得到了保障。两项基本权利能否得到好的保障就是结果的反映。有的结果以后必须有一定的程序去保障机制在公共领域当中的实施。我们将这个程序称为过程评价。这个过程评价就是一个政治过程的评价。这个评价不是简单的行政程序的问题。按照我们对公共治理的理解，公共治理是政府和其他参与者共同合作形成的治理模式。这个治理模式下面不仅包含了政府的行政程序，还包含了其他的利益主体行使自己的权利的参与渠道。以前讨论的时候，有些学者质疑在我们这个研究中讨论民主选举是否有意义。我们认为有意义。因为各个地方进行的不同试点可能会使居民产生不同的认知。我们要考虑在不同试点下面的认知是不是有差别。我们有单一评价也有总额和评价，综合评价可以弥补综合评价的不足。公共治理领域中，其它的参与机制才刚刚开始，政府还是处于主导地位。我们需要考虑人们对政府的总体印象。我们的整个评价方法如下图（图二）所示。这些评价方法好还是不好需要听取大家的意见。

茅于轼：中国现在经济增长很快，但是社会矛盾又很多。大家分析认为这是政治改革落后造成的。在十年以前或者更早的时候，我和盛洪就讨论过这个问题。我们提出的一致意见是要推动政府的政治改革。按照中国的情况，不可能搞三权分立、多党制、普选。第一步还是应该从技术层面上帮助政府进行改革。从那时开始，我们就做了一个较大的课题——政府体制改革。这个课题大概持续了六年，出了80多份报告。最后还写了一本书，名字是《透明公正——中国政府体制改革之路》。那本书不过是谈到了我们的研究的三分之一的内容，后来由于出版自由的问题被搁浅了。后来我们就开始进行中国经济人权研究。本来想做中国人权研究，但是太敏感了不好做。关于经济人权的研究周老师也参加了。那个课题没有分省。从2000年到2004年，我们把中国经济人权的变化分成四个领域：住房、教育、医疗和就业。那个课题结束以后，现在开始这个课题——中国公共治理的分省评价。

周老师已经讲得很清楚了，我只做几点补充。第一，公共治理是很抽象的，能否分成一二三个指标分别打分？周老师讲了，公共治理是多维的问题。比如重量和长度就是不同的维度。不同的维度是不能加总或者平均的。比如，重量3公斤和长度4米取平均3.5，这算什么呢？我们现在做的就是这个工作，把不同的维度取了平均。但是各个省都是这么取平均的，得出的数据就可以比较了。我们最后得到的全国的公共治理指数是0.352。0分最好，1分最差。按照百分制计算，中国公共治理的得分是65。这样的单个数据没有太大的意义。但是比较发现，杭州最好（0.27），福州最差（0.41）。这是总的评分，下面还有周老师说到的四个领域的评分，比如基本权利、正义程序等等。可以看到，排序之间确实有相关性。我们还需要做一系列进一步的工作。比如，各个维度中是否存在相关性，收入水平、教育水平和满意度是否存在相关性。我们在打分的时候将不满意的权重定得很大。比如选项中有很满意、还可以、不满意、很不满意。可能很不满意的只有2%-3%的人，但是却被放大了。我不太懂，但是其他老师说这是有根据的。第二，周老师讲到了主观和客观的争论。什么叫主观或者客观，有两种分类。一种认为问卷的答案是主观的，观察的结果是客观的。看看马路上有没有坑，或者打电话给政府机关看看有没有人接，这都是客观观察可以看到的。还有一种是从答案中判断是主观或者客观。比如某人有三个小孩，一年花了多少教育费，这算是客观的。他对此不满意，这算是主观的。关于主观客观的争论很大。有人认为要的就是客观的数据，主观的数据会有偏差。也有人说我们要的不是客观数据，而恰恰是主观数据。你搞得再糟糕，老百姓满意就行。这个争论现在也没有结果。

这个分省研究刚刚做了一年，我们准备继续做下去。欢迎大家多给我们提改进意见。中央政府有很多考核地方的方法。我们希望这个数据可以帮助中央政府对地方的公共治理的好坏有一个客观、中立的评价。共产党的评价方法是很多的，但是要做到中立很难。因为其中可能涉及人际关系等等。天则所来做就没有这些问题。我们肯定会客观、可靠地做出评价。不可能说某个地方给一万块，我们就给他们评价好一点。樊纲他们做了几年，影响就出来了。我们头一年影响很小。但是慢慢做下去，就有希望变成天则公共治理指标。

大家可以看一下最后的综合指标度量结果。这和经济水平没有直接关系。北京的经济很好，但是排名却不是很前。南京的排名就非常靠后。

周业安：在评价方面，我们关注的是负面评价。如果居民回答是满意的，我们就不去关注。在问题的回答中，我们会对"不满意"赋一个值，对"很满意"赋0。比如，问题的答案有"满意"、"不满意"和"非常不满意"。我们可能会对"满意"赋0，对"不满意"赋0.3，对"非常不满意"赋0.7。评价越是负面的，得到的数就越大。我们把所有的答案量化，最后转化为现在的数据。

朱恒鹏：首先，我感觉你们的理论工作已经做得非常扎实了。如果现在还有一些理论上无法解决的问题，可能都是很难的。第二，关于主观评价和客观评价，我认为二者都需要。主观评价是看老百姓的满意度，本身公共治理的很重要的目的就是让老百姓满意。客观评价还是取决于专家意见，客观指标其实还是专家定出来的。所谓专家，他们和老百姓比起来理论储备比较扎实，对问题的看法相对扎实。另外，专家可能相对理性一些。所以，我们倾向于选择这样的客观指标。在评价政府的公共治理的时候，专家的意见是需要的。在中国这样的情况下，不能跟着群众的感觉走。在司法上的很多冤案就是例子。很多案子都是由于"民愤极大"所以限期破案。我看到某法律专栏上就有一个案例：一家五口人被怀疑杀害了祖母。由于民愤极大所以公安局就草草破案，一家五口人被抓了三口。这家的女儿不服，认为不可能是家里人把奶奶杀死的。告了十几年以后终于找到了关键证人，案例终于平反。在接受采访的时候法官说：当时的证据是严重不足的，判得那么急是由于民愤极大。因为杀祖母是会引起公愤的。第三个是不同的指标数据加总的问题。分数是无量纲的，不同分数相加是可以的。这就和高考相似。两个人的总分相同。一个人的物理高8分，另一个的语文高8分。是不是意味着这两个人的水平一样高呢？不一定是。但是大家普遍认为这个由打分判断能力的方法还是可以的。这个问题不是很关键的，可以解决。指标如果超过十来个，权重的选择就不会有太大影响。所以，我觉得权重用简单平均法是最好的。这个方法的优点在于权重不会改变。所有的其它方法权重都可能发生改变。比如专家打分法中，过一段时间可能就会让专家重新打分。哪个指标更重要，可能这个指标的权重就会增大。一旦改变权重，从简单统计学上说数据就不是一个口径了。最后一个问题，我感觉我国的省会城市的特权是很大的。我认为省会居民对政府的感觉可能和一般城市的居民对政府的感觉是不一样的。几乎每个省的政府都会把省会建设得最漂亮。调查是在省会城市居民中进行的，这就很可能高估我国的公共治理的水平。从中央到地方，几乎都会把最好的资源用在首府城市。这在医疗上可以很明显地看出来。从1993年分税制改革以来，政府对医疗的投资很少。绝大多数资金都投在了首都以及各省会城市。这样一来，这些地方的居民得到的医疗服务以及医保福利的水平就是高于其它地方的居民的。所以，我觉得这个调查可能高估了中国公共治理的水平。但是，各省之间的排序可能不变。

盛洪：是不是可以这样理解，拿产品来说，仅仅评价其效果是不够的，还需要考虑其价格。地方政府可以在本地收税，从而可能通过转移支付将这些财政收入转移到了省会城市的建设上。所以，是不是可以研究财政收入和财政支出之间的差额？或者是不是可以看看首都或者省会城市是否得到了补贴？这是不是应该按地税而不是国税来算？

杨晓维：这个研究是在评价公共治理。在我理解，公共治理是公共事物的决策机制。所以首先是不是应该有这样一个指标，用来评价中国政府（中央或者地方的）的治理结构和国外比较起来怎样。这实际上就是周业安教授说的政治程序。第二个问题才是结果（效果）问题。这应该是两个问题，但是我感觉业安没有将其清晰地分开。就像我们首先会看公司的治理结果怎样，然后才会看公司的绩效如何（公司赚钱多不多）。对于治理结构好像这里谈得不是很多。比如，政治决策中传媒起到什么作用，公众表达是用民主制、公投、一党专制或者是其它的。等等这些都是需要评价的，但是涉及政治不敢触动。但是我们首先可以设计指标，描述公共治理治理结构是怎样的，然后我们可以谈结果。对于结果的满意度可以说是见仁见智。公众的看法是说不清楚的。比如很多人关心政府提供的福利如何，但是我就不怎么关心这个。我在成都的时候，开车要是违规了交警上来开了罚单就走。问他犯的是怎么错误，他也不理。北京就不是这样的。交警上来会先敬个礼，然后告诉你犯了什么错误。有些情况下我可以和他讨论讨论，然后他就让我下次注意、放我走了。我就可能更关心诸如此类的东西。所以，可以首先设计指标把治理结构描述清楚。治理结构严格地说起来就是各种权利的分配以及运行过程，各种权利包括公民权利、政治权利等等。下一步再进行绩效评价，这可能有待建立一套理论。刚才周先生讲到了专家意见。我觉得不是专家意见，而是应该基于各种比较以及理论研究之上形成一个规范的标准。这个标准对什么治理结构最有效有一系列规范的指标。如果这个标准没有制定出来，那么我们设计的指标就比较盲目了。现在能做到这一步已经很不容易了。但是如果形成一套标准以后，我们再设计一些客观指标甚至是主观指标就更加有针对性。

温来成：刚刚听了周业安教授的报告，觉得很有启发。茅老师说要让这个数据成为天则指数，获得社会的认可。这使得此项研究具有推广价值，可能对社会有很大的贡献。在许多国家，这样的指数有上百种之多。零点公司在清华开的一个会上也介绍了他们自己做的社会公共服务指数。我本人主要做政府财政以及城市公共管理的研究工作。在这些方面可以和大家做一些交流。这几年，国内行政管理学界（或者说公共管理学界）对这个问题的关注很多。从1985年开始，国内回复了行政学和政治学的理论教学和研究工作。西方公共管理理论中有一个著名的观点——结果导向。随着西方管理理论的引入，国内一拨又拨的人开始研究这些问题。中国行政学会下面的一个二级分与兰州地方政府绩效评价研究中心合作，也设计了相应的指标。这两年国家社科研究基金也开设了专门的课题来研究这个问题。我们中财大有个老师正在研究政府绩效评价的指标体系。社科院搞了一个公共财政评价体系，也希望将自己的指标设定出来以后向全国各地推行。搞绩效预算可能政治阻力太大，财政部在外界的压力之下也开始推行绩效评价。但是他们选择了政治上不敏感的对象来评价，比如扶贫资金的绩效评价、教育专项资金的绩效评价。他们是想先做绩效评价，再向绩效预算方向转移。零点公司这样的民间组织做的公共绩效评价工作也是很有意义的。从民间角度考虑问题，得出的结论还是和我们日常生活中的感受比较吻合的。他们得出了指数是60%。这说明目前人们觉得政府提供的公共服务大体可以，但是还没有得到满意的程度。

周教授讲到天则所的指标是以权利和政治过程为核心来设置的。如果这些指标要向社会推广，就需要考虑政府和老百姓能够在多大程度上接受这些指标。比如，福州市市长是不是觉得自己做得最差，这个结果是不是合理。这也是一个考虑因素。当然，这两年大家对政府公共治理讨论比较多。社会比较关注的政府治理这部分可能比较多的是和民生有关的公共服务。比如社会权利这部分，包括科技、教育、文化、卫生等方面，还有反腐败问题。又如看病难、看病贵的问题，有些年份是当年第一位的社会矛盾。所以，我们在设置指标时，可能要考虑社会的认可程度怎样，社会在公共治理领域关注哪些因素。

另外还有对每个指标如何赋予权重的问题。评估指标比较多，大家在一段时期对各个指标的关注程度可能不一样。公民权利、政治过程在我国也在缓慢地改进，但是在短时期内可能不会有太大变化。但是社会权利方面则可能出现较大的变化。在评价的时候如何更好地体现这些问题，这是我对指标设定提出的一些不成熟的看法。

另外，我们也做了这方面的研究工作。我们给政府做的一些课题涉及到了绩效评价。我感觉其中有几个问题需要进一步的讨论，在这里提出来和各位专家交换一下意见。讲到评价（特别是公共治理评价），有几个不可回避的问题。比如评价的主体，是由政府机构评价，还是社会组织评价？在许多国家，公共治理评价是一个巨大的市场，有众多机构在从事这个工作。在我国，这个市场还在政府的垄断之下。如果政府不开发这个市场，评价主体没有明确的法律依据，这个工作进行起来还是比较困难的。我们希望这个评价结果能够推动国家公共治理水平以及社会福利水平的提高。如果这个结果政府也不认可、老百姓也不认可，那它的现实意义就不是很大了。虽然我们的学校也讲校务公开，但是学校从来不对外公开收支。这些政府组织以及官办的非赢利机构谁也不敢公开预算。这都是值得关注的问题。

还有一个客观评价指标和主观评价指标的问题。有些指标是不能量化的，就是一个主观的感觉。比如百姓对国家安全的评价，晚上十一点在马路上行走也觉得是安全的。这样的评价也就可以了。一定要打70或者80分，意义不是很大。指标设计也要考虑是否合理，不合理的指标可能会对基层政府是一种误导。对于同样的钱，乡长会拿它来整修街道还是翻新校舍呢？可能整修街道会使得上面的领导来视察的时候看到显著的政绩。指标设计不合理，就可能使得地方领导重视眼前利益，把人们最先看得到的地方翻新。这个问题，可能是各个国家政府公共治理的通病，在指标设计的时，我们需要考虑减轻这种弊病。

张昕：很荣幸参加这个讨论会，这个主题在现在的国际和国内环境下是非常重要的。我只能提供一些思路或者相应的补充。这项研究和哈佛大学罗伯特•帕特南做的那项研究很像。他写了一本《使民主运转起来》，里面是关于社会资本的研究。他跟踪意大利二十年。这本书上世纪92年出版，在美国也是很有影响的。以前奥尔森说利益集团会影响经济增长。他的书中说结社自由能够促进经济增长。他说这在意大利北部和南部有很明显的区分。我国和意大利有些相像。他们有传统的历史，我们也有。他们的北部和南部有些像我们的东部和西部。所以这个话题对我国是很有意义的。

治理是一个难以界定的问题。目前在我所看到的文献中，社会学、经济学、政治学、公共管理以及法学等学科都对这个问题感兴趣。治理实际上是一个很大的概念。通常西欧这方面的文献比较多，北美也有一些。我结合通过阅读所知的思想，做一些文献引用方面的补充。第一，国家不能太大；第二，治理是可抉择的集体行为；第三，治理本身是法人治理；最后，治理是一个多中心的概念。我理解的和公共管理相关的界定是部门间的伙伴关系。现在有人说三分法，把第三部门加进去。这就是三部门间的伙伴关系。三个部门间的伙伴关系的提出使得原来的二分法（市场私人物品和政府公共物品）不成立了。从文献上考证，布坎南在其《公共物品的供给与需求》中谈到公共物品和服务的公共性可以被看作是从0到100%。所以，他对物品和服务进行了分类。无论是公共部门、私人部门或者第三部门，都可以提供这些物品。今天开始越多越多地强调对物品的大的分类，这就可能打开新的视野。在治理的理解上，我觉得需要进一步深入。从权利的配置（宪政程序）角度的分析非常好。但是我觉得现在需要关注治理主体的问题。我比较赞同结社自由。政府不赞成结社，很多情况下就会缺少主体。这样一来，再多的参与也没用。如果能够有结社自由，治理主体就会多样化。美国印第安纳大学的奥斯特罗姆夫妇就认为多样性本身具有生态学的意义。治理多样性可以作为一个指标，对应着问卷中要揭示的一些情况。奥利佛•威廉姆森提出的治理还是强调了存在外在的制度环境以及内在的治理结构。治理结构是针对主体而言的。这个主体从法人治理来看是所有权和控制权之间的结合物。这个结合物就是一个多中心的概念。这个课题已经做了很多工作，但是在治理概念的理解上可能需要更进一步。我觉得还可以参照帕特南的那本《使民主运转起来》。他也有主观的问卷，但是概念非常清楚。社会资本的概念是一个主题，把研究内容串连起来。和帕特南的比较，我们这个课题缺乏中心的主题概念。帕特南的研究还涉及到了其它经济发展的指标。刚才温来成老师也谈到，公共管理有很多政府绩效方面的研究。最近国家行政学院引进了很多欧盟的书籍，包括教育、医疗、治安等等。其中一些评价也是和公共治理有关的。这也可以作为参考。

对于指标赋权的问题，我觉得关系不大。不同的维度加权是可以的。比如，人格也是有不同的维度的。但是在实际操作的时候，我们假设人们对题目的回答是正态连续分布的。把所有抽样总体做一个正态分布，原始分数就能够转化为标准分数，构成测量的常模。然后，个人每项的标准化分数都可以和常模比较。这个标准化分数是无量纲的，将之乘以一个数就可以获得好的解释。最后加总的时候就不需要赋权了。我能说的就这三个方面。

韩朝华：这个研究很好，恐怕也是国际学术界的潮流。在研究经济增长、经济发展的时候必须控制那些非经济的制度、文化甚至历史等因素。天则这样有雄厚的学术资源的机构做这个研究是很有必要也很有意义的。希望这个研究能够继续下去。

杨晓维：无论是专家意见还是公众调查，需要分清楚是在评价公共治理的善恶还是在评论对公共产品的满意度。一个是对治理本身运行机制（权利分配、决策程序等等）的评价，另外一个是看政府提供的福利多不多、老百姓有没有房子住。我们需要对二者有谨慎的区分。弄不好就变成了对公共产品的评价，公共产品好不好和钱多不多关系比较大。北京政府钱多，因此补贴多、教育资源也多。

盛洪：东城区搞了一个数字化城市管理系统，我们对其做了一个评价。那不是一个排序评价，而是一个绝对的财富数量的评价。我们最后评价出的结果是多少亿这这样的数字。尽管很复杂，但是我们还是做出来了。所谓的主观数据就是主观效用论。现代经济学是建立在主观效用论上的。说这个商品有多少价值，完全是个人的主观评价。我们做的那个研究也是这样的。先问老百姓到底值多少，让其给出数。然后经过一堆技术处理得出最后的财富数字。那个项目做得很成功，但它没有城市间的比较。其实可以对不同政府的公共物品的提供做出评价，然后再做比较。这叫标尺竞争。天则所这方面做了很多工作，也积累了不少经验。

这个课题也是很有意义的。一个是结果的评价，一个是过程的评价，还有一个是综合评价。是不是可以这样比拟。结果就像物质产品（私人物品）以及服务水平。关于服务的评价好像不太独立。我买卖电视机的时候，会接受买卖电视机的服务。这其中包括店员是不是热情地招待我、向我介绍产品性能、让我挑选、最后送货到家、帮助安装。之后还有售后服务，我打了电话他们必须迅速派人上门维修。大的厂家都能做到这点。我想强调的是：这些服务都是涵盖在价格里面的。我们平常可能不太注意。如果我们花了2000块买了台电视机，实际上买的是机器加服务。为什么海尔的产品比别家的贵？因为海尔的服务好，价格包含了服务提供的成本。刚才晓维说得很对：不只要看提供了什么公共物品，公共物品的服务也很重要。也就是说产品和交易服务也是有价格的，而且应该纳入公共治理的评价之中。政治过程和权利需要辨析，这就像生产产品。同样是生产电视机，但是不见得所有的企业用的是同一种生产工艺。比如一种是民主方式的，还有一种是哲学王的方式。这种哲学王的方式非常极端，但也是可能的。这种方式中，有人把老百姓想透了，提供的服务非常到位。

第二，为什么我们要评价生产过程？因为这个生产过程和物质产品（私人物品）的生产过程不一样。这个过程需要消费者参与。比如我们需要立法，这个立法不可能和消费者没有关系。也就是说，这个立法必须和老百姓有关，让老百姓参与。从这个意义上讲，我赞成将政治过程纳入考虑。这就相当于把生产过程纳入考虑。在评价私人物品的时候，我们是不管生产过程的。海尔怎么生产电视我们不管，我们只管看电视。我们的课题组将政治过程纳入考虑还是有道理的。我们如何评价它？这需要我们的学者或者精英的判断。首先，这不是老百姓非常了解的。比如，基本的宪政框架怎样，这需要对历史上的宪政原则的成败得失进行分析总结才会知道。刚才有人提到政府机构的预算大都是不公开的。负责人想公开就公开，不公开大家就无从了解。对此的判断很简单，财政透明就是正的指标，财政不透明就不是正的指标。老百姓可能不关心，但是我们必须关心。再比如，对财政支出有没有宪政约束？收多少就花多少是不行的。随意地想增加多少公务员就增加多少，这也是不对的。这都是有公认的宪政原则的。再比如，上海突然出台一个不许群租的规定。我不知道这个荒谬的政策是如何出台的。它就是一个行政部门的法规，违反了中国的宪法或者任何上位法。这本身是违宪的。如果这样的地方政府做了违宪的事情，我们是不是应该记录下来。这是很严重的问题。我们也可以在老百姓中去调查得到结果，但是必须刚还找到了群租的人。如果没有碰到，那就无法有所涉及。但是我们可以看得很清楚，这个事情的确是系统性的错误。所以，我觉得政治过程的评价确实应该纳入考虑。而这个东西不能光靠进行对老百姓的抽样调查，需要理论提供一个公正的标准。按照这个思路，我们每次在公布结果的时候应该给出解释。为什么福州最后，为什么杭州第一？都必须有个解释。如果把这些有关政治过程（比如宪政框架）的原则放进去，上海的名次掉下来就不难理解了。数据出来并且附带我们的解释，如果得到中央政府的支持将是非常不错的。想要名次提高，可以改正一些行为。比如，不出台这样违宪的政策。这样一来，数据的影响将会很大。

茅于轼：刚才大家的发言对我很有启发。其中谈到了不同量纲的加总。经济学有一个功能，让不同的量纲可以加总。一度电四千瓦小时、一公斤煤、一尺布都是可以加总的。价值度量上是可以比较的。一度电的价值高还是一尺布的价值高，这是可以换算比较的。经济学上市场价格就可以换算出来。我们心里要有一个关于公共治理的尺度。对于公共治理满意不满意、花了多少钱变成公共治理中的指标分数。然后就可以将之加总了。最后打分是全组平均0.35（65分）。这样的分数就有意义了。不仅是排序中有比较，绝对值也可以比较。100的满分我们全国平均水平是65分。这也是有意义的。

周业安：这种会每开一次都会有不小的收获，每个人都会从各自的角度提出不同的意见。张昕老师提到的治理变量的补充值得我们的斟酌。当时我们在综合治理概念的时候，主要是从可度量性的角度来思考的，不完全是从学理角度思考的。晓维提到的也很重要，我们至少需要描述一下公共治理的现实过程。还有温老师提到的需要考虑可接受性，这都很好。

有些大家提到的在这个课题中没法做，因为我们做的是地区评价。有些是整个国家的模式，我们在做地区评价的时候就没必要考虑。如果是在每个地方找专家咨询，也会有一些问题。各个地方的专家的类型以及水准都是不一致的，这就给评价带来了困难。但是事件记录的方法很有价值，但是不知道是否能够操作。如果能够把每个省的相关事件记录下来，那当然是很好的数据。这就是客观的度量。但是客观度量对能力的要求很高。记录客观事件是很麻烦的。比如考察同样规模的企业注册过程也是可以的，但是需要花很大的人力物力。在管制严格的条件下，居民调查是最容易的。很多企业调查是受到限制的，需要经过审批才能进行。我们原先也设想过很多方法，现在的方法是最容易的。我们的样本家庭有3000多个，每个城市的样本大概是100多个。住户调查也是花费很高的。我们的想法就是先做下去，以后有了更多的人力物力就可以使用更多样的方法。再次感谢大家提出了很好的建议。

盛洪：谢谢业安和茅老师，谢谢参加讨论的教授，谢谢参加双周的朋友，我们的会议就进行到此。

点击：

文章版权归原作者所有。