人类为什么要合作? ——从策略性对抗到制度性合作
人类社会必须要寻求合作,合作不是某个人决定的,而是不可违背的演化规律。

我们先从非合作开始讲起,非合作的极端形式就是对抗,最基本的对抗是一对一的对抗,在人类社会早期一对一的对抗可能表现为争夺食物配合领地等等,强者胜,弱者亡,这是一种原始的直接的生存逻辑,但是不能什么事情都搞成你死我活,这样生存成本就太高了。比如双方为了一个苹果就要搞个你死我活,就等同于把无价的生命降低到一个苹果的价值了,这显然是不值当的。
所以人类就发展出更复杂的行为模式,简单的力量对抗就逐渐让位于策略对抗,研究在对抗中如何制定最优策略的理论产生了,这就是博弈论。
博弈论最早的模型是零和博弈,什么叫零和博弈?简单的说就是你的收益等于我的损失加起来永远是零,比如说股票市场就是典型的零和博弈,你赚了必然有人赔了,市场上总的收益与总的损失加起来为“0”。后来人们发现在博弈中,有时双方的利益并不是完全对立的,还有可能是双赢或双输。如果两个参与者都知道对方的策略,且没有人能通过单方面改变自己的策略获得更好的结果,那么这个策略就是一个纳什均衡。
关于博弈论三部曲的最后一步,主题是合作的演化,在1979年,美国政治学者罗伯特.阿克塞尔罗德设计了一场有关囚徒困境博弈策略的比赛,比赛是这样设计的,有甲乙两个劫匪被警察抓住了,检察官没有足够的证据起诉他们,他希望有人能够坦白罪行,检察官就分别与劫匪谈条件,他跟甲说如果你认罪我就放了你,但是乙会判入狱10年,甲是名惯犯,很有经验,甲就问,如果两个人都认罪会怎么样?检察官说都判5年,甲接着问,如果我们都不认罪,检察官说我就不以抢劫罪起诉你们,但你们仍然会以持枪罪被判一年。
最后检察官又跟乙重复了上述条件,现在乙和甲就陷入到了一个两难的境地里,选择无非会产生以下三种结果,两人合作不认罪,1+1只有两年,一个认罪,一个不认罪,0+10=10年,两人互相背叛,5+5=10年。在这个例子中,只要是有理性的人,都会选择互相背叛。大家各判5年,从2人总收益看,这是最坏的结果,但是从个人的角度上看,这又是最优的结果。
上面的例子是一个单次博弈,如果把这个例子拓展为多次可重复的博弈,又会怎么样呢?
阿克塞尔罗德重新设计了实验积分的规则是这样的,如果小红选择合作,小红得三分,小红合作,小兰却选择了背叛,小红最失败得0分,小红选择背叛,而小兰选择合作,小红的收益最大得5分,小红与小兰都选择了背叛,双方就各得1分。对博弈双方来说一共面临着4种可能性,假如连续进行200次博弈,是否存在着一种策略可以得到最高分数了?
阿克塞尔罗德邀请了来自数学、心理学、计算机、科学、政治学等领域的一共14位专家,请他们在各自的专业领域思考,制定出最佳的获胜策略,目标就是拿到最高分,很快14位专家就完成了他们的任务。阿克塞尔罗德就把14种策略输入到计算机里,让他们两两进行博弈,捉对厮杀,每一个策略都必须与其他13种策略进行博弈,而且还会和自己博弈一次,每轮对战200次,最后计算总得分,看一看哪一种策略得分最高,这其中都有什么策略呢?有总是背叛策略,还有总是合作策略,还有随机选择策略,还有一旦背叛过就永远背叛策略。
还有复杂一点的,一旦背叛就连续三次背叛,第四次再选择合作。下一个有意思是一种品质很坏的策略,前4轮都合作,从第五轮之后永远被判这个策略称为假合作引诱策略,其他的就不再一一介绍了,但是这些策略最后都没有胜出的策略。
而胜处的是来自一位著名的心理学家,他叫阿诺托尔拉波波特,拉波波特的策略是这样的,第一轮永远合作以后的每轮都模仿对手上一轮的行为,对手合作就合作,对手背叛就背叛。己方的行动完全以对方的行动为准则,紧紧的跟随对手,这个策略叫做t for tat。中文翻译为以牙还牙策略。在这张图表中可以看出,以牙还牙策略得到了最高分504.5分,而排名第二的策略得到了500.4分,似乎相差并不大,但实际上不是这样的。这个得分是把14轮比赛的得分相加再除以14得出的一个平均分,得分差距虽然小,但绝不是性能差不多的表现,因为这是在2800轮微观博弈中逐步积累出来的结果,差一点点分数,效果都相差巨大。
通过分析比赛结果,阿克塞尔罗德敏锐地看出,以牙还牙是一个非常了不起的策略,但是他仍然希望能够找到更完美的策略,于是在1980年阿克塞尔罗德又举办了第二次重复囚徒困境博弈比赛,这一回他总共收集了62种策略,然后再次让这些策略捉对厮杀,让人大吃一惊的是最终得胜的仍然是以牙还牙策略,以牙还牙策略到底特殊在哪里呢?
第一,不首先背叛,第二,行为模式简单明了,对手可以很容易的识别。第三,一旦被欺骗立刻报复,防止被持续剥削。第四,在对方改变态度后能够恢复合作。
这些特征是一个稳定合作系统最需要的策略文化。
什么叫稳定合作系统?就是指在重复博弈的环境里,不会因为偶尔的背叛行为就立马瓦解的系统,合作行为能够长期的存在。
从自然界再到人类社会,存在着很多这种可以重复互动的稳定博弈系统。
举个例子,比如鲨鱼与清洁鱼,鲨鱼吃东西时经常会有残留的肉块或者小生物卡在牙缝口腔的褶皱中,会引起口腔溃疡、发炎、清洁鱼就像牙医一样进入口腔,把这些残留物给吃掉,这真是太神奇了。但是这种共生合作一开始是怎样形成的?只有一种可能,就是鲨鱼与清洁鱼都使用了类似于以牙还牙的策略。
如果鲨鱼总是吃掉茎叶鱼,它的口腔卫生就会很糟糕,这种背叛型的鲨鱼也活不了多久,它的基因就很难保存下来。另一边那些经常攻击鲨鱼口腔的清洁鱼也会被鲨鱼惩罚性的吃掉。所以只有学会共同合作的鲨鱼与清洁鱼才能活下来,在漫长的进化过程中最终形成稳定的合作关系。
大自然里充斥着这种合作关系,像吸盘鱼它的头部有一个盘状结构,可以像吸盘一样吸附在大鱼的身上,大鱼吃饭时可能会掉落碎肉,残渣,吸盘鱼就会在旁边吃剩饭,作为回报吸盘鱼有时会吃大鱼,体表的寄生虫死皮,在长期演化过程中,双方的行为被自然选择强化,就会形成稳定的共生模式,这些都是自然演化的结果,不只是自然界,人类社会更是如此,国家之间贸易外交协议都可以看作是囚徒困境中的博弈。
通过阿克塞尔罗德的研究,我们认识到只要是重复性的博弈,最优的策略一定是以牙还牙的策略。在人类的重复博弈中,大家最终认识到,既然合作是最优的选择,我们之间就不要再搞什么策略性对抗了,每一次都要搞博弈,太不划算,不如再进一步大家一起制定规则,一起遵守,这就将策略性对抗发展为制度性合作。

前面讲过人与人之间一开始是一对一对抗,后来发展为策略性对抗,最终发展为制度性合作。慢慢的混乱的社会就形成了秩序,从暴力开始走向文明,这是人类社会的巨大进步。
比如宪法、民法、刑法形成了法律制度,造就了今天的法治社会,合同制度、审计制度、股票交易所形成了今天的商业制度。联合国世界贸易组织气候协定形成了国际合作制度,这些制度性合作太重要了,他把不稳定的博弈状态变成了稳定的合作态,制度性合作让人类超越了自私自利的本能,依靠国际组织法律规则,大家就可以跨越国家,跨越文化进行合作。
今天人类取得的辉煌灿烂的成就,绝对不是一两个人能够实现的,必须依靠人与人之间的合作,这些都是制度性合作的结果。
那么,以牙还牙策略到底是什么?其实大家想一想,这不就是做人的基本准则吗?做人要善良,与人合作时不要藏着掖着,要让人看得懂你的行为模式,被骗之后立刻反击,别人认错了,要有宽容之心。
这些基本准则是人类天生就有的吗?当然不是。阿克塞尔罗德的研究告诉我们,不论是自然界还是人类社会,只要存在着可以重复互动的稳定博弈系统博弈的最佳策略,只能是以牙还牙策略,而以牙还牙的最终结果就是产生合作。
这样看来,人类社会要想继续发展,首先不能破坏合作的基础,在今天就是不能破坏制度性合作,像是退出世界贸易组织气候协定,这些行为本质上就是反对合作。
阿克塞尔罗德对合作演化的研究引人深思,过去我们常把合作与善良、无私高尚联系在一起,其实合作这件事儿与道德高尚无关,合作的本质是理性博弈的产物,合作是大自然演化的必然结果。

热点资讯/a>
- 人类为什么要合作? ——从策略性对抗到制度性合作
- 《爱若指尖雪》司宁江时彦 试管五年,怀胎七月的司宁意外早产,
- 乌克兰濒临破产
- 敦煌市总工会开展暖心驿站选址调研
- 2025年3月26日全国主要批发市场韭苔价格行情
