信号与噪声:大数据时代预测的科学与艺术

The Signal and the Noise: Why Most Predictions Fail but Some Don't

我们有理由怀疑投资者存在多种认知偏见,而过分自信就是其中危害最大的偏见。可以说,行为经济学的核心成果就是发现大多数人在预测时都表现得过分自信。股市中的预测也不例外,美国杜克大学一份关于公司首席财务官的调查发现,人们期待这些投资者能较为老练成熟,实际上却高估了他们对标准普尔 500 指数的预测能力。他们竟对股价的剧烈波动感到意外,完全忽视了长久以来股市在短期内都相当不稳定这一个不争的事实。 加利福尼亚大学伯克利分校的经济学家特伦斯·奥丁构建了一个模型,模型中的投资者都只有一个缺点:他们在评估信息的价值时都过于自信了。而在其他方面,他们都表现得十分理性。奥丁发现仅过度自信这一个缺点就足以扰乱理性市场。如果市场中充斥着一群过度自信的投资者,交易量便会激增,股价浮动幅度加大,每日股价间的关系反常,活跃投资者的收益也会低于平均利润,而所有这些在现实世界中都会发生。

在实践中,借给你股票的投资者在认为你存在信用风险时,能够随时要回股票。这也意味着他能够在股价有利于他自己时选择退出交易,因为股市中存在这么个大问题,它使得被高估的股价在恢复到较为公平的价格水平前,会被更严重地高估。另外,当出借人了解到你可能必须动用存款来还清欠款时,他有权向你索取极高的利率,而你为了继续这笔交易,通常都会接受他的条件。股市泡沫要经年累月才会消退。正如约翰·梅纳德·凯恩斯所说:“在市场回归理性前,你可能已经破产了。”

我作预测时便十分注意大家的共识,比如像 Intrade. com 网站这样的博彩市场里大家一致的看法。但这绝非强迫每个人都要参考他人的观点。但是,当我越是偏离一致观点时,我的论据就要越确切,直到得出结论为止。我的处理方法是对的,我认为,大多数时候这样的态度也是有助于你的。也就是说,尽管有时你能打败市场,但你不能指望每天都能打败它,如果你那样想的话,就有过度自信的嫌疑。

一些理论家建议,我们应该将股市看作一个双轨合一的车道。一条是信号轨,如我们在课本中了解到的 20 世纪 50 年代的美国股市。这类股市能长期存在,股市投资者进行的交易相对较少,股价和基本原则紧密相关,有助于投资者进行退休规划,也可以帮助公司积累资本。 另一条是快车道,即噪声轨,它所代表的股市中有很多动量交易和积极回馈,也充满了扭曲动机和从众行为。这条轨道就像一场“石头剪子布”的游戏,风险高,对更广义的经济没有什么实质性好处,但是也没有什么实质性伤害。这就是一条快车道,一群汗流浃背的投资者在上面奔跑。 然而,这两条轨道碰巧出现在一个路面上,这就好比某个城市决定举办一场一级方程式赛车比赛,但是某个政府监管机构忘记关闭通勤的车道一样。有时,路面上会发生一场大的事故,这就好比股市遭遇金融危机一样,许多普通投资者会遭到无情的碾压。

在这种情况下,想要打败别人,就要加倍付出努力。你会发现,自己很快就会遭遇收益递减的窘境。你收获的额外经验、策略中新添的妙计和预测模型中的附加变量,所有这些,并不能使你的牌技有所长进。同时,你建立的那些经验法则虽然有用,但现在你需要学习经验以外的更多东西。 然而,在竞争十分激烈的领域,只有提高边际效益才能挣到钱。竞争为人们设定了“水位”,而个人的利润只是“冰山一角”:漂浮在水面的仅仅是一小部分竞争优势,而隐藏在水面下支持它的,是一个由汗水铸成的巨大堡垒。 我曾经努力想避开这些领域,转而在一些“水位”很低的领域下功夫,把最基础的做好,也能得到我想要的。在“点球成金”之前的年代,棒球也是“低水位”领域之一,所以当时比利·比恩仅凭借对一些小事——如上垒率比击球率能更好地衡量一个球员的进攻表现——的认识就赚得盆满钵满。

如果你具有很强的分析能力,并且能够在许多领域中发挥这种能力,那真该仔细考虑一下竞争实力。在有些领域,竞争屈服于不良动机、不良习惯以及对传统的偏执,如果你很擅长对这样的领域作预测——你有更可靠的数据或更过硬的技术——通常就有可能小赚一笔。而在人人都能对基本情况预测准确的领域中,想要脱颖而出的难度就更大了,如果这时你还认为自己拥有很大的优势,那可就是自欺欺人了。

再没有什么别的游戏能让人们如此自以为是地认为自己简直就是魔术师,可实际上,他们的表现却那么差。从根本上说,这是因为人们无知地认为自己是神一般的人物,但事实恰恰相反。如果计算机程序以人类的骄傲自大为能量的源泉,那它在扑克牌游戏中将战无不胜。

有时,我们总是找借口说预测不准是因为运气不好,这都是因为我们太过依赖运气了。信用评级机构在无力预测金融危机的时候也在拿运气当借口。但我们似乎也默认了一点,即当我们作预测时,总认为信号比想象得还多,在评估预测时,我们还会把准确的预测归因于拥有更多技能,而实际上并不是。 说到解决方案,其中一个就是在评价预测时要更加严格一些。一个预测的技术含量有多高通常可以通过经验法检验出来。在有些领域中,这个目标很快就能实现,有些领域则不行。而另一个解决方案——也是数据中充满噪声时的唯一解决方案——是把重点放在过程而不是结果上。如果预测样本过于嘈杂,无法确定它是否准确,就应该查看预测者的长期预测记录,通过其预测的态度和能力来作判断。(从某种意义上讲,我们这是对预测者的预测结果进行评估。)

如果你与顶级玩家有过接触,就会发现他们从不把成功看作理所当然的事情,他们一直非常重视自我提高。德万告诉我:“任何对自己满意、认为自己对扑克牌比赛得心应手的人,就等着走下坡路吧。”

回顾过去,这样的比赛模式有时十分明显:如果骑士队除了不断地提高进攻数据以外什么都不做,那么,他们参加的比赛必会是高分比赛。篮球赌客在看统计数据时,观点极其偏执,从不考虑统计数据是在什么样的背景下产生的,于是这些球员就可以玩障眼法。如果一支球队一连串比赛的得分都很高,甚至出现三四次这种连续高分的情况,这样的高分通常没有任何意义。确实,因为 NBA 赛季很长,30 支球队要打 82 场常规赛,舞弊的现象时有发生。这些比赛大多为深水盘,这些情况的出现纯属偶然原因导致。而实际上,篮球赌客们通常也会认识到这些趋势,他们在划定盘分线时可能就会对这些趋势进行过度补偿,有时反方向下注才是明智的做法。 所以,乌尔加利斯不单单是寻找过去的比赛模式,在任何一个数据丰富的领域,寻找模式很容易,一般的赌客也都是这么做的。关键是要分辨出这些模式到底是噪声还是信号。