你好,我是王烁。
这一讲,我想跟你讨论一个,我最近的认知收获。
我这辈子棋力最强的时候,曾经拿过北京大学生围棋比赛冠军。从那时到现在,人类围棋最辉煌的时代我经历过了,AI统治的降临我也见证了。
人下围棋要讲棋理,但今天AI不给你讲棋理,问工程师也没用,他也没法告诉我AI是怎么“思考”的:深度学习是个黑箱,就跟大脑是个黑箱一样。
要跟AI学棋,就得用到《30天认知训练营·2019》里讲过的三种反馈学习方法中的模仿。由表及里,从它下在棋盘上的棋步,去倒推内在的逻辑,先回溯,再模仿。
虽然并不存在绝对靠谱的方法,来判定剖析到了哪一层真正管用,虽然通过模仿获得的认知日后多半会发现很浅薄,但没有更好的办法。
模仿AI,我学到这些心得:
第一,棋没那么容易死,与什么棋都可以死,这两句话同时成立。棋没那么容易死,每个子死的时候都获得了对价,才能死得其所。什么棋都可以死,所以不用怕死,倒是怕死反而会死得很不值。
第二,天大地大,先手最大。几乎是无论什么时候,如果一个地方不会下了,那就脱先,也就是换到别的地方落子。脱先总能得九十分,要是不离不弃,长考出一套精妙打法,反而经常不及格:一顿操作猛如虎,胜率就掉二十五。
第三,把每一步都当作第一步来思考。无论上一步有什么构思,这一步都要忘掉重来。正因如此,打脸不要紧,反正还要打。漫漫长路,你还要打自己的脸很多次。
总之,人类下围棋下不过AI至少有三个原因:太怕死,太恋旧,太要脸。
马尔可夫过程
岂止下围棋是这样!看到我的这些心得,我的朋友,软件工程师木遥说这就是个马尔可夫过程。他这样讲:
说到马尔可夫过程,把木遥的话总结成一句: 未来只与现在有关,而与历史无关。
这话里有冷峻的诗意:AI就是这样下棋的,股市大多数时候也是这样运动的,在《30天认知训练营·2019》里讲,不要清空存量,要清空存量思维,也是同一个道理。
但到这里还不是尽头,我们可以再往下多走一步,马尔可夫过程的道理还有更深一层。
为什么在马尔可夫过程中,未来与历史无关?
给你举个例子,假设你的闲暇时间只用来做两件事,读书和玩手机。在这里,读书是一种状态,玩手机是另一种状态。
我们再假设,你在这两种状态之间相互切换的概率是固定的。假设你正在读书,那就有6成概率会继续读下去,而有4成概率会转过去玩手机;再假设你要是正在玩手机,那就有9成概率继续玩下去,而只 有1成概率会转过去读书。
在此,我已经提到了马尔可夫过程的四个前提:
第一,状态的数量是有限的,这里只有两种状态:玩手机、读书;
第二,状态之间切换的概率是固定的,这里指的是你读书时转过去玩手机的概率,或者你玩手机时转过去读书的概率,它是固定的;
第三,遍历性,也就是所有状态都有可能会出现;
第四,非周期性,也就是它不会是单一的一个过程反复循环,周而复始。
马尔可夫过程的四个前提如果同时成立,那么,不论最初你在读书和玩手机上怎么分配时间,也不论后来经过了多长时间,有多少次反复,最终都只有一个结果:
你80%的时间用于玩手机,20%的时间用于读书。
import numpy as np
Q = np.matrix(
[
[0.6, 0.4],
[0.1, 0.9]
]
)
init_s = np.matrix([[100, 10]])
epsilon =1
while epsilon>10e-9:
next_s = np.dot(init_s,Q)
epsilon = np.sqrt(np.sum(np.square(next_s - init_s)))
init_s = next_s
print(init_s / init_s.sum(axis = 1))
只要到了这里,你就出不来了。算一算,八成时间用于玩手机,两成用于读书,这时,你从玩手机切换成读书的时候有10%乘以80%等于8%,而你从读书切换到玩手机的时候有20%乘以40%,也等于8%,两者正好抵消。只要你达到这个均衡,你就锁死在这个均衡里出不来了。
哪怕你最开始是100%的时间都用来读书,你最后也会掉到80%的时间用来玩手机的结果中去。
只要是一个马尔可夫过程,总是会结束于一个统计均衡(unique statistical equilibrium)。正是在这个意义上,历史无足轻重,因为无论初始状态是什么,无论过程中作何干预,无论路径怎样展开,最后都会掉入模型设定的长期均衡,并且就停在那里了。未来与历史无关,因为不论历史是怎么发生的,未来已经注定。
对马尔可夫过程的理解,不能缺少了这一环。
所以说, 如果你想改变你现在的状态,关键不是从哪里出发,也不是过程中你要作哪些干预。你要做的是改变转移的概率。
转移概率就是,你在读书时是继续读呢,还是转过去玩手机,你在玩手机时是继续玩呢还是转过去读书,这两件事的概率。不改变这两个概率,你起初花再多的时间来读书,过程中你拿起书的次数再多,你还是会掉进同一个坑里。不信你就算一算。
同样的道理适用于其他问题。
比如说管理情绪,在放松与焦虑之间,如果你想减少焦虑,指望休假重启充电是不行的,未来与历史无关。想要减少焦虑,你得在放松的时候能够更多地保持放松,而在焦虑的时候能更多地走出焦虑,你得改变转移概率。
同样,授人以鱼,不如授人以渔。如果不提升人们从穷困状态转到富裕状态的转移概率,也就是增加穷人的致富能力和机会,那么无论你给穷人多少钱,最终还是会有同样比例的人群陷于贫困。社会花了许多资源,最后什么也不会改变。
总结一下,锁死在坏的均衡里是灾难,锁死在好的均衡里,好结果会自己发生。从坏均衡的马尔可夫过程变成好均衡的马尔可夫过程,你必须改变转移概率。
前两年韩国驻华大使送了一幅字给中国领导人,最近韩国议长访美又手书同一幅字给美国国会众议院议长。同样四个字:万折必东。
四个字两头送,虽然有一点点滑稽,但跟今天讲的马尔可夫过程契合:
不论从哪里开始,是从唐古拉山还是昆仑山,不论过程中有多少曲折,是黄河九曲还是长江十八湾,水下一步往哪里流,都只跟现在这一步有关,每一步都是水往下流,那么它最终一定东流入海。
今天我也把这四个字送给你:如果你执行了错误的转移概率,马尔可夫过程是你的天敌;反过来说,如果你执行了正确的转移概率,马尔可夫过程是你最好的推手。不论起点高低,过程难易,它将你一步步送往属于你的那个均衡。
万折必东。
照例出个思考题:
生活中还有哪些事是马尔可夫过程,又有哪些不是,还有哪些它很可能经常是,但不应该是?
宣布个消息,我的新书《跨界学习》就要上线了,这本书脱胎于《30天认知训练营·2018》的课程内容。
“得到”给学习了我课程的用户,准备了提前购买的优惠,如果你感兴趣可以点击下方的图片链接,进一步了解。