打开人口普查数据的正确姿势

2016-02-17 作者: 特约作者 原文 #政見 的其它文章

打开人口普查数据的正确姿势

00123f37b7a10e376d8a01
图片来源:新华社 </br>

最近几年春节,随着北上广的Kevin、Vivian们回老家省亲,平时被遗忘的乡村也雨露均沾,一年一度地挤进微博知乎和朋友圈。虽然每年的主旨大同小异,都是感叹家乡的落后和贫穷,但故事的内容却各不相同。

今年引爆朋友圈的故事,是讲述一位上海姑娘跟男友回江西老家,被男友老家寒碜的年夜饭吓到,分手回家一气呵成。这类孔雀女和凤凰男的都市传奇,加上戏剧性的冲突和春节这个时点,具备引起网络舌战的一切要素。支持和不支持这位姑娘的网友,迅速在各个战场展开舌战。舌战的内容不一而足,但基本都在常见的范围之内,并没有太多点开的欲望,直到笔者的一位朋友转过来一篇 “奇” 文。

这篇 “奇” 文先是列举了 2000 年第五次人口普查的分性别婴儿死亡率,指出江西省女婴死亡率远高于男婴死亡率,之后笔锋一转,大量列举印度杀婴,尤其是杀害女婴的报道和图片,直指江西也存在杀害女婴的情况,最终顺理成章地上升到对全部江西人民的道德谴责:娶不到媳妇都是报应!这篇文章荒谬的逻辑明眼人都看的出来,但开头使用婴儿死亡率数据,伪造公正客观的假象,却很有迷惑性。转来此文的朋友直言:“至少补充了信息,有干货!”

其实这篇文章是对统计数据的典型误用。严肃的研究者都知道,使用数据是一门谨慎而精巧的手艺。误用、乱用、有选择的使用数据,不但得不到正确的结论,甚至会被用来构造出完全相反的结论。使用统计数据,起码应该了解数据指标的涵义、统计口径、质量和局限性。如果有可能,最好能进一步了解数据的统计方法和统计过程,这会有助于理解和评估数据。很多时候,数据使用前要利用各种技术手段调整和清洗。

难以统计的婴儿死亡数据

以上述婴儿死亡率为例,第六次人口普查资料死亡卷明确标示:“本卷表数据为人口普查直接登记的汇总结果,未考虑漏报因素,请使用相关数据时考虑登记误差因素的影响。” 之所以这样说明,是因为死亡数据,尤其是婴儿死亡数据,非常难以统计。

计算婴儿死亡率需要知道出生婴儿数和死亡婴儿数,而这两个数据受到计生政策和传统文化的影响,都很难查清楚。就出生人数来说,除了超生的孩子容易被瞒报,为了超生出男孩,未超生的女婴也可能被瞒报;除了超生家庭可能瞒报,基层工作人员迫于计生任务压力,也有可能瞒报。就死亡婴儿数来说,为了不交罚款,超生死婴瞒报很常见。

此外,受到传统文化影响,有些家庭会因为觉得不吉利而瞒报,有些家庭则压根认为出生后不久即死亡的婴儿是死胎而非死婴。在做婴儿死亡率国际比较的时候,要特别注意各国文化差异导致的数据差异。

为了评估和调整人口数据,学术界和统计部门发展出了多种模型。国家统计局曾翻译了人口和人口统计学委员会组织开发的一系列模型,收录在 《人口间接估计技术》 一书里,也就是国内人口统计界常说的 《手册十》。随着计算机技术的发展,其中的多数模型已经包含在常见的人口预测软件中了。模型调整的常见思路大致有四类:一是利用普查的事后质量抽查结果评估和调整;二是利用新的普查数据回推之前的普查数据;三是利用指标之间的相关关系评估和调整;四是利用其他相关调查和统计数据评估和调整。

4-9 岁年龄段漏报近 2000 万

对中国人口普查数据进行评估的文章汗牛充栋,每次普查完毕在期刊和研讨会上都会出现一大批文章。官方统计机构自己也会对数据质量进行评估。
继续以开头那篇神文所引用的第五次人口普查 (“五普”) 的数据为例,负责五普事后质量抽查的武洁处长认为,虽然五普 1.81% 的漏报率相较前两次普查的 0.15‰ 和 0.6‰ 有所提高,但仍然低于国际公认的 2% 误差正常线,所以是可以接受的,真实反映了市场经济条件下人口迁移、人户分离给普查带来的巨大困难。她同时也承认,虽然在事后质量抽查中,试图对出生人口、死亡人口的漏报作出评估,但数据不能满足恰当估计出生率和死亡率的要求。 </br>

时任普查办常务副主任的张为民和普查处副处长崔红艳,对五普数据的准确性做了更为全面和详细的评估。由于 1990 年四普时 a 岁的人口数,减去 10 年间死亡的人口数,应严格等于 2000 年五普时 a+10 岁的人口数,他们由此构建了分性别的留存率曲线,发现 46 岁及以上人口的准确性很高,20-45 岁青壮年人口有少量重复登记的情况,而 0-9 岁人口存在一定程度的漏报。他们通过小学入学人数等行政记录数据,估算仅 4-9 岁年龄段漏报人口就达 1996 万,占该年龄段普查登记人数的 18.94%。

同时,他们认为出生数据和死亡数据,在省际间的漏报程度不同。或许我们可以推论,分省出生、死亡数据的比较需要非常谨慎,不加评估的直接比较非常可疑。

有缺陷的数据为什么要发布?

可能有人会质疑,明显有缺陷的数据为什么要发布呢?美国西北大学教授 Charles Manski 认为,即使是做得远好于中国的美国官方统计,数据和相关信息也是发布得太少了而不是太多了。他以美国失业率数据的季节调整为例,说明用不同的调整方法调整的数据差异可能会更大,应该详细说明调整方法,最好是公布出未经调整的数据,以便数据使用者自己进行评估和调整。从这个意义上说,发布未经调整的普查数据是值得肯定的——至少,掌握更多信息或更先进调整方法的使用者,可以据此进行评估和调整。

那么江西到底是否存在 “重男轻女” 现象呢?我想大约没有人否认其存在,毕竟 “重男轻女” 现象在全国都普遍存在。研究者张为民和崔红艳认为,中国婴幼儿性别比偏高,也即男孩多于女孩,“已经是一个不争的事实”,漏报是造成偏高的因素之一,但更多的可能是有选择的堕胎。

但江西是否是全国最 “重男轻女” 的省份呢?笔者还未看到有说服力的研究和数据证明这一点,只有部分研究利用性别比的省际比较,认为江西的性别比在全国处于较高的水平,但这些研究并没有更多的考察省际间普查数据质量的差异。

笔者曾试图构建一个 2000 年时 “重男轻女” 指数,利用 2010 年第六次人口普查的 10 岁组人口数据。因为人口普查为了减少漏报瞒报,在超生罚款、上户口方面有 10 年一度的 “大赦”,为了子女教育等目的,早期瞒漏报的孩子此时大多会进行申报,所以数据会比 10 年前 0 岁时准确。指标使用上可以考虑性别比、分胎次的性别比和受教育程度等,使用分胎次的性别比是因为二胎及以上胎次性别比与头胎性别比的差异,能够部分反映性别选择。但由于种种原因,主要是水平有限,进展并不顺利,只在此抛砖引玉供方家参考了。

不过话说回来,至少表面上江西和广东在上述指标上处于相同水平。但为什么只攻击江西而非广东呢?我想,大约还是因为广东比较富吧。姿势错误地使用普查数据之后,逻辑混乱的地域攻击就图穷匕见了。

(本文写作过程中请教了多位人口统计领域的前辈,但由于水平和理解能力有限,难免有错误和偏颇之处。文中观点除引文外纯属个人观点,与任何组织和机构无关,文责自负)

参考文献

  • Manski , C. ( 2015 ). Communicating uncertainty in official economic statistics: An appraisal fifty years after Morgenstern. Journal of Economic Literature, 53(3), 631-653.
  • 武洁.(2002). 人口普查中的事后质量抽样调查. 南方人口第3期. 18-24.
  • 张为民&崔红艳.(2003). 对中国2000年人口普查准确性的估计. 人口研究第4期. 25-35.

回到开头


文章版权归原作者所有。
二维码分享本站