别用“常识”理解复杂世界
摘錄自 同人於野 學而時嘻之 Blog
(《东方早报·上海书评》,2011年10月29日)
如果一个物理学家谈物理,哪怕他只是用大家都能听懂的语言做科普,外行一般也不太敢提出质疑。人们知道物理学是一个非常专业的尖端科学,没经过多年训练的人胡乱说话只能闹笑话。可是当一个社会学家谈论社会问题的时候,哪怕他旁征博引了好多东西方先贤的经典理论,别人还是可以毫无压力地批评他。不管专家怎么说,每一个出租车司机都认为自己知道汽油涨价是怎么回事,每一个网友都认为反腐败的出路是明摆着的,每一个球迷都认为如果从来没搞过足球的韦迪能当足协主席,那么我也能当。
这也许怪不得大众。实践表明,像政治学这样的软科学,其“专家”的实用程度很可能并不显著高于“砖家”。1984年,伯克利的心理学家Philip Tetlock做了一个影响深远的研究。他调查284个专门以预测政治经济趋势为职业的政治学家、智囊和外交官,向他们提出各种预测问题,比如说戈尔巴乔夫有没有可能被政变搞下台。
Tetlock要求专家们对其中大多数问题,比如某个国家的未来政治自由状况,提供出现三种可能性(保持现状,加强或者减弱)的大致概率。这个研究做了二十年,一直等到当年预测的事情全部水落石出。到2003年,Tetlock总结了这些专家给的答案,发现他们的总成绩还不如索性把每个问题的三种可能性都均等的设为33%。也就是说,专家的预测水平还比不上直接抛硬币。更有讽刺意味的是,这些专家对自己专业领域的预测得分居然比在自己专业外领域更差。
所以《纽约人》杂志在评论Tetlock描写自己此项研究的《政治专家可靠么?》( Expert Political Judgement: How Good Is It? How Can We Know? )这本书的时候对专家相当悲观,最后得出的结论居然是我们还是自己思考算了 — 尽管Tetlock的研究显示专家的得分其实还是比普通人略高一点。
但社会科学并非无路可走,它可能正处在一个大发展的前夜。哥伦比亚大学Duncan Watts的新书《什么都是显然的–如果你知道答案的话》(Everything Is Obvious* Once You Know the Answer)提出,社会科学的发展方向应该是像硬科学一样,依靠实验和数据。传统专家的预测之所以不行,是因为他们依赖的很多直观“常识”,其实是一厢情愿的想当然。
事实上,哪怕一个最简陋的统计模型,也能比专家预测得更好。Watts 这个说法当然并不新,已经有越来越多的人呼吁把数理方法作为社会科学研究的主要方法,而且这个方法也的确正在成为主流,现在大概已经很少有人在论文里拿一百年前的所谓经典说事了。此书的最大新意在于,因为Watts同时在Yahoo!研究院研究社交网络,他在书中描述了几个其本人参与的有趣研究。
谈起社交网络,中国读者会立即想到格拉德维尔(Malcolm Gladwell)的《引爆流行》(The Tipping Point)。这本书提出,一件东西要想在人群中流行开来,需要某些特别有影响力的关键人物在其中推波助澜。这些关键人物是社交网络中的节点,是普罗大众中的意见领袖,正是因为他们的存在我们才可能实现把地球上任意两个人用不多于六个人相互联系起来,也就是所谓“六度分隔”。
根据这个理论,扩大知名度的最好办法是找名人做广告。名人在微博上说一句话,应该比普通人的“口碑”重要得多。有传闻说现在中国有百万粉丝的名人发一条营销微博可以获得一千元,其实这个数字还算是少的。美国女星Kim Kardashian一条tweet的价格是一万美元。
“关键人物”理论完美符合人们的思维常识。我们总是强调伟人对历史的推动,强调“一小撮”坏分子对社会秩序的破坏,强调明星对时尚潮流的引领。问题是,这个理论没有获得大规模统计实验的支持。
在现实生活中统计影响力非常困难,因为我们很难测量一个人是被谁影响的。现在微博客Twitter的出现给这种测量提供了可能。Twitter的一个特别有利于研究的特点是,如果用户分享一个网址,这个网址的URL会被缩短,自动形成一个唯一的代码。通过跟踪这些短代码,Watts与合作者就可以分析信息如何在Twitter上扩散传播。具体说来,就是如果有人发布了这么一条代码,而他的一个“粉丝”如果转发这条代码的话,那么这次转发就可以被视为一次可观测的影响。广告商的愿望,是希望信息能够这样被一层接一层的转发传播开来,形成所谓“Twitter瀑布”。
然而通过分析2009年两个月之内160万用户的七千四百万条信息链,研究人员发现98%的信息根本就没有被推广传播。在这千万条信息中只有几十条被转发超过千次,而转发次数达到万次以上的只有一两条!我们平时看到的那些被反复转发的消息其实是特例中的特例。由此可见想要通过微博成名,就好像买彩票中头奖一样困难。
那么名人的影响力到底怎么样呢?Watts等人使用了一个巧妙办法。他们使用统计模型根据第一个月的数据把那些粉丝众多,并且成功引发了Twitter瀑布的“关键人物”挑出来,然后看他们在第二个月中的表现。结果相当出人意料:这些人在第二个月再次引发瀑布的可能性相当的随机。平均而言,“名人”的确比一般人更容易导致一条消息被广泛传播,但这个能力的实际效果起伏极大,一点都不可靠。也许最好的营销方式不是拿大价钱请少数名人,而是批量雇佣有一般影响力的人。
如果一个东西突然流行开来,我们的常识思维总是以为这个东西一定有特别出类拔萃之处,或者就是其幕后一定有推手。但Twitter上的研究表明所谓幕后推手其实并没有那么厉害。那么为什么某些书能够畅销,某些电影能够卖座,某些音乐能够上榜呢?完全是因为它们出类拔萃么?Watts参与的另一项研究表明,成功很可能主要是因为……运气。
这是一个相当有名的实验。实验者创办了一个叫做Music Lab的网站,在几周之内招募到一万四千名受试者来给48首歌曲评分,如果他们愿意,也可以下载其中的歌曲。有些受试者的评分是完全独立的,他们只能看到歌曲的名字。而其余受试者则被分为八个组,他们可以看到每首歌被自己所在组的其他受试者下载的次数 — 他们可能会设想被下载次数越多的歌曲越好听,这样一来他们打分就会受到社会影响的左右。
实验表明那些好歌,也就是在独立组获得高分的歌曲,在社会影响组也是好歌,而且其流行程度比在独立组更高;而坏歌在社会影响组的表现也更差。所以当听众能够被彼此的选择影响的时候,流行的东西就会变得更加流行,出现胜者通吃的局面。然而这个实验最重要的结果是,具体哪首歌能够登上排行榜的最前列,则是非常偶然的事件。
有些歌曲可能会因为实验初期纯粹偶然地获得更多下载次数,后来的受试者受这个影响就会以为这首歌好听,以至于给予它更多的关注,形成正反馈。最初的运气很大程度上决定了最后谁能脱颖而出。独立组仅获第26名的一首歌,在一个社会影响组居然排第一,而在另一个社会影响组则排第14名。尽管特别不好的歌肯定不能流行,但好歌想要流行还是需要很大的运气成分。总体来说,独立组排名前五的歌曲只有50%的可能性在社会影响组也进前五。
对能够互相影响的一群人,不能以常理度之。撒切尔夫人曾经说,“根本就没有社会这种东西。只有作为个人的男人和女人,以及他们的家庭。”可是你不能用研究一个人的办法来研究一群人。就算你能理解这群人中的每个人,你也未必能理解把这群人放在一起会发生什么。他们之间的社交网络结构,会导致一些非常偶然的事情发生,这些事情无法用任何常识去预测。
一般人的历史观总是有意无意的把一个集团,比如说清廷,想象成一个有思想有行动的个人,好像辛亥革命就是清廷,孙中山和袁世凯三个人之间的事一样。这样的理论无法解释为什么孙黄数次起义数次失败,最后居然在一个完全想不到的时机成功了。
我们生活在一个彼此互相影响的社会。我们想起来去听一首歌,也许只不过因为朋友的推荐。我们想起来去看某个电影,也许只不过因为我们恰好在微博上跟随某人。旭日阳刚可能的确唱的不错,但在某个平行宇宙里他们将不会登上春晚舞台。如果历史重演一遍,芙蓉姐姐、周迅甚至李谷一都未必能成名,《哈利波特》的第一集未必能获得出版。我们总是习惯于把事情的成败归结为人的素质,归结为领袖人物,甚至归结为阴谋论,好像什么都是注定的一样,而事实却是很多事情只不过是偶然而已。
常识只是特别善于在事后“解释”事件,这种解释根本谈不上真正的理解。十月革命爆发了,我们就说俄国局势导致革命必然要爆发,可是革命之前有谁能这么肯定呢?中国女篮以三分优势击败韩国取得奥运参赛权,赛后总结自然全是成功经验,可是如果中国队最后几个球偶然没投进,媒体上必然又全是失败的反思。我们看这些事后的经验总结或者反思,总是觉得它们说的都挺有道理,简直是常识。专家们也正是根据这些道理去预测未来。可是事先你怎么就不知道这些完全相反的道理哪个会起作用呢?
比如如果有人说来自农村的士兵会比城市士兵更适合部队生活,读者很可能会认为这是显然的 — 农村本来条件就比较艰苦,需要更多的体力劳动,所以农村士兵肯定更能适应部队。然而据社会学家Paul Lazarsfeld对二战期间美军的调查,事实恰恰相反。其实是城市士兵更适应部队生活,因为他们更习惯于拥挤、合作、命令、严格的衣着规定和社会礼仪。这两方面的常识看上去都有道理,在没有统计的情况下我们根本不知道哪个更重要。这就是为什么不做调查研究就没有发言权。
要想从复杂的随机事件中看到真正的规律,最好的办法是像搞自然科学一样进行大规模的重复实验。如果中国女篮跟韩国队在同样的条件下打100次能赢95次,我们就可以确信中国队强于韩国队。如果一首歌能在每一个社会影响组都进前五名,我们就可以确信这首歌的素质的确出众。然而历史不能重复,我们不知道最后发生的结局是不是一个小概率事件,但我们却总能用“常识”给这个结局一个解释!像这样的解释如果用于预测未来,甚至制定计划,怎么可能不失败呢?一个更实用的历史观是放弃“一切都是注定的”这个思想,把历史事件当成众多可能性中的一种,把未来当成一个概率分布,然后尽可能地使用统计方法,通过历史数据去计算未来事件的概率。与其追求用各种想当然的常识指导未来,不如把历史当做一个数据库,从中发掘统计规律。
搞自然科学的科学家经常认为社会科学更简单。如果你看那些社会科学的论文,会发现其中逻辑通俗易懂,结论往往也是显然的。物理学经常能得出一些违反直觉而又绝对正确的结论,然而社会科学中常识却总能大行其道。现在这种局面正在改观,自然科学的方法正在被引进到社会科学中去。但这个过程并不容易。亨廷顿曾经在某项研究中颇有科学精神地写道“62个国家的社会挫折和不稳定之间的相关系数是0.5”,然后一个数学教授跳出来说这纯属胡扯,“亨廷顿是怎么测量社会挫折的?难道他有一个社会挫折表么?”其实像这样的批评也许只不过说明社会科学比自然科学更难做。
在没有互联网的年代想要找几万人做歌曲评分实验,或者分析成百上千万的社交网络和信息传播,都是根本不可能的事情。现在有了互联网,社会科学终于可以带给我们一些“不显然”的研究结果了。所以社会学家已经在使用新方法搞科研,遗憾的是实用专家们仍然停留在过去的理论上。一个原因也许是统计方法还没有来得及作出更多有实用价值的判断。但不论如何,正如Watts所说,现在社会科学已经有了自己的天文望远镜,就等开普勒出来总结行星运动三大定律了。
————
几点说明:
1. 此文中关键事实,凡是没有直接标明出处或给出链接的,一律来自这本书。以后写书评也是如此,不再注明。
2. 我曾经在《分析 Facebook 上的两场捐款战》一文中使用过“关键人物理论”,并且以此对比中国用户的捐款数据,得出结论是中国用户对网络的使用习惯还停留在论坛时代。而当时数据的确显示有些人是有一定的影响力的。现在看来这两篇文章似乎有点矛盾,但数据也许并不矛盾。“影响力”肯定是存在的,但也许并没有人们事先设想的那么强。另一方面,这个捐款“实验”也可以作为对本文提到的url转发统计的一个很好的补充。
3. 我觉得新浪微博可能比 Twitter 更容易用来进行社交网络研究。首先转发次数是明摆着的,其次也许用户量更大,另外新浪这种明星体制也许会导致整个网络结构跟 Twitter 很不同。不论如何,希望能看到有人对新浪微博进行类似的大规模统计分析!