让数据说话只是个唬人的幌子:识破谎言(1) - iYouPort
“让数据说话”只是个唬人的幌子:识破谎言(1)
- 我们提倡的应该是*让证据说话*,而不仅仅是“让数据说话”;虽然只差一个字,但它俩是完全不同的两码事。
陷我们于困境的并非是自己的无知,而是确信无疑之事其实不然 —— Mark Twain
数据新闻、可视化,做出来很漂亮,看起来高大上,于是追求者越来越多。
不仅鱼龙混杂,并且,那些追求者中并非所有人都真的了解数字的合理性。
觉得很惊人吗?不理解也能做?当然能。我曾经与一家专注于可视化数据新闻的团体交流,因为他们当时在尝试向更多人传授这一做法。我问他们如何确保真实准确?他们的回答很简短:“所有数据都来自官方正规渠道”。好吧,这就是问题所在。
数字不一定是“事实”
由于统计数据本身是数字,于是在大多数人看起来它们似乎代表着某种冷冰冰的、铁一般的事实。
然而, 别忘了这一点:所有统计数据都是人收集起来的 。
统计的对象、方法、结果和文字说明,全部是参与统计工程的人进行筛选和采用的。
因此, 数字并非事实,而是对事实的一种诠释。而且这种诠释还会因人而异。
有些时候,数字本身就是错的。这种情况下最便捷的方法就是,检查数字的合理性。
但是要知道,⚠️即便通过了合理性测试,数字的收集方法、解读方法、和图示方法,各方面都会产生错误,从而让你对事物本身产生错误的认知。
很多时候,要快速匹配某种表述是否合理,只需对相关数字进行简单思考或粗略计算。可惜却没有多少人愿意花这几分钟时间。
切勿见到数字就轻信,这东西越来越经常地被用来唬人了。
数字把戏
在评估一个表述的合理性时,甚至可以不在意相关数字的准确性。听起来有悖常理吗?但是有道理。
因为,数字的准确性在这点上确实无关宏旨。这种例子遍地都是,根据生活经验就能判断其中大部分。
如果我说,一只玻璃杯从桌子上落下来,碰到了厚厚的地毯而没有碎,这听起来似乎合理;但如果我说,一只玻璃板从40层楼顶上掉下来,落到水泥地面上,依然完好如初,那么肯定不合理对吧。这就是生活经验。
同样,举一个新闻中出现的例子,您可以试试看如何评价以下表述。
比如,1、“在加州解除大麻禁令的35年间,吸食大麻的人数每年都会增加一倍。”
这个合理吗?从哪里入手判断?
先假设35年前加州只有1人吸食大麻。当然这是最保守的数字(1982年美国全境逮捕了50万名吸食大麻者)。
如果按照35年每年翻一倍计算,结果就是从最初的1变为170亿,远远高于全世界总人口数……简单算一下就会发现,实际上21年后吸食大麻的人数已经超过100万:1、2、4、8、16、32、64、128、256、512、1024、2048、4096、8192、16384、32768、65536、131072、262144、524288、1048576。
显然,这一陈述不仅不合理,而且不可能成立。只需要用小学数学知识和合理的假设就可以推断出准确结果。
再举一例,比如你刚刚当上了电话推销员,老板为了激励你的业绩,于是他宣称,2、“我们最好的推销员每天都能完成1000个销售额。”
这个表述合理吗?
你试试拨打一个电话号码,完成拨号最快也需要5秒钟,对方接线又需要5秒钟。假设每拨通一个电话都能完成一次销售额,当然这是最理想的假设条件。
你完成推销说辞说服对方需要10秒钟,拿到其地址和卡号又需要40秒;这样,每完成一次通话就需要一分钟(5+5+10+40=60秒);那么一个小时内你能完成60个销售额。
也就是说,你马不停蹄地工作,连厕所都免了,一天之内最多只能完成480个销售额。1000是纯粹扯蛋的。
以上这些都非常容易看出破绽;但是要知道, 经常能遇到的表述中有些难以看出,比如在新闻中,有刺激性,而且似乎符合人们的偏见,其实是假的 。
比如2013年“时代周刊”的新闻标题: 使用手机的人比使用马桶的人还多
怎么分析呢?你可以考虑一下发展中国家缺乏管道设施的人数,以及发达国家的很多民众不只拥有一部手机这样的观察经验。
不能因为标题看起来合理就不假思索地接受它 。
要评估这个表述还要借助其他手段,但无疑已经超出了分析合理性的范畴。
不可轻信媒体
如果不亲自做点研究,评估表述有时会很吃力。
的确,这本应该是媒体的工作,而不是读者的。但是,媒体经常只追求吸睛度、刺激性、引流能力,不客气地说是宣传效应,而不是事实。于是一些错误的数据经常可以趁虚而入,甚至能在舆论界站稳脚跟。
曾经最经典的一个是,一众媒体都在引述对下面这个统计数据进行大肆报道:
美国每年都有150000名女孩和年轻妇女死于厌食症[Steinem, G.( 1992). Revolution from Within. New York: Little, Brown and Company.Wolf, N. (1991). The Beauty Myth. New York: William Morrow.]
按照美国疾病控制和防御中心的说法,每年都有各种原因导致的、年龄在15~24岁的女孩和年轻女士死亡数字在8500人;如果再加上每年25~44岁年龄段的女性死亡人数,总数也不过55000人。[Lies, calculations and constructions: Beyond How to Lie with Statistics. Statistical Science, 20( 3), 210–14]
所以仅仅死于厌食症的人数,一年内不可能达到150000人(死亡总人数的三倍)。
在一篇发表于《科学》杂志的文章中,Louis Pollack 和 Hans Weiss 宣称,自通信卫星公司成立以来,“打一次电话的费用降低了12000%”。
这就太扯蛋了。如果某一项费用*降低了100%*,那么它必然为零,不论最初的数字是多少。
如果费用降低了200%,那就是说对方支付售价相等的金额给你。降低12000%纯属无稽之谈。
还有更好笑的,Dan Keppel 的书名《物有所值:在股票、共同基金和每种金融需求方面节省 200% 的资金》( Get What You Pay For: Save 200% on Stocks, Mutual Funds, Every Financial Need)他拥有工商学硕士的头衔,原本可以处理得好一点的。
当然,在使用百分率时一定要采用同样的基数,只有这样才能保证计算结果的可比性。
比如现有薪水降低50%后,在此基础上再增加50%,绝对不能把你的损失补回来。因为基数变了。
当然这看起来太简单了,基本人人都能算清楚; 但是这种把戏经常被使用,说明它依然很能骗人。
如果银行利率由3%浮动到4%,即 增长了一个百分点或33%(1%的增长以3为基数,所以1/3 约0.33);而利率从4%下降到3%,相当于降低了一个百分点,但不是33%,而是25%(此时是以4为基数)。看起来简单,但媒体也会在此出错。
纽约时报曾经报道一家位于康涅狄格州的纺织厂由于用工成本高而关停,并且搬到了弗吉尼亚州。
该报道称,康涅狄格州的用工成本“包括工资、补助和失业保险 —— 比弗吉尼亚州高20倍”。这合理吗?
假设其合理,那么你就会想到:应该有大量的公司会从康涅狄格州半岛弗吉尼亚州 —— 而不是只有这一家纺织厂。事实上这不是真的。纽约时报此后不得不做了更正说明。
那么这种错误是怎么出现的呢?很简单,该记者没能理解工厂内部的一份报告。实际上康涅狄格州的用工成本中只有一项,即 失业保险是弗吉尼亚州的20倍。把这项成本和其他成本加在一起时,康涅狄格州的总成本其实只高出1.3倍,而不是20倍。
这只是解释数字时出现的问题,还有些问题是从统计数字的最初就出现了的。
新泽西州正式通过了一项立法,规定已经生育子女的母亲在领取社会福利的同时,不能再领取额外补助。
一些立法人员认为,新泽西州的妇女生孩子只是为了增加个人每月的福利金额。
立法实施后两个月,立法者宣称,由于新生儿下降了16%,“家庭福利封顶”法案大获成功(family cap law)。然后纽约时报报道说:
新法案实施后,该州公布的统计数字表明,领取社会福利的妇女所生的新生儿数量下降了16%。相关立法官员开始庆祝立法迅速见效……
这就是主流媒体不走脑子的特点 。只是像录音机一样重复官员的说辞。(《 媒体,你真的知道什么是事实吗? 》)
请注意,他们统计的不是妊娠数量,而是新生儿人数。人类妊娠一般需要约9个月,而该立法实施后的前两个月内新生儿数量下降,不能简单归因于立法本身,极有可能只是出生率的正常周期性波动。
上面例子说明统计数字收集方法存在问题。就如本文开头所讲述的,媒体不应该仅仅复制照搬官员官方的数字。
有时候自认为覆盖了所有统计对象,但事实上并非如此;有时候一些推理错误也不太容易发现。但读者只要通过简单的练习就能提升判断力。
比如饼状图,是一个经常被误用的统计学基础工具。
饼状图很常见,它可以显示整体中不同部分的分布情况。
饼状图的基本规则是,各百分比的总和必须等于100%。就像一个大圆饼,假如有9个人都想要一等分,你就不能把饼分成8份。
福克斯新闻就搞过这种笑话,就下面这样:
你可以想象这情况是怎么发生的。
由于选民可以选择投票支持一个以上的候选人,所以你就不应该使用饼状图来呈现结果。
人们经常太不小心了,尤其是读者。媒体撒谎也有钱赚的,读者被骗可不会有人给您什么补偿。最重要的是,读者的不小心很容易让操纵式宣传趁虚而入。
中国有很多消息连统计数据都没有,就凭媒体空口白牙的陈述,依旧能被很多人信以为真。这就意味着谁能控制媒体,谁就能控制大众的脑子。这多可怕是吧?如果某人的金钱和权力能大到足够控制媒体的程度,您还期待此人是天使吗?
**这是一个新系列话题,关于识别真伪的一些注意事项,后面还有更多丰富内容,感谢您的阅读**
—— 未完待续 ——
文章版权归原作者所有。