燕谈 - Powered by Discuz! Board

标题: [转帖] [读书笔记]当重复囚徒困境遇到自然选择 [打印本页]

作者: mp586 时间: 2013-6-27 23:16 标题: [读书笔记]当重复囚徒困境遇到自然选择

时间：2013-06-27 09:07:09 来源：豆瓣作者：Ent

囚徒困境的故事太出名了，应该不用详细介绍吧……可能唯一值得说的是，如果令两个囚徒都合作的收益为R (reward)，都背叛的收益为P (punishment)，一方合作一方背叛则合作方得到 S (sucker)、背叛方得到T (temptation)，那么一个经典囚徒困境必须是T > R > P > S. 不满足这个的就不是囚徒困境。

重复囚徒困境的故事这些年也慢慢出名了……如果是单次博弈，那么显然背叛永远优于合作。但是如果这个博弈要重复多次，那么合作就有了出头的机会。

当年 Axelrod 做了一个名垂青史的实验：向全世界同行征集重复囚徒困境的策略，然后在计算机里让它们相互搏斗。第一次他征集到14个参赛者，最后获胜的出乎所有人意料是最简单的策略——Rapoport 提交的【“一报还一报” （TFT, tit for tat）】。它只有两条规则：开场先合作，然后重复对方上一次的策略。它单独出现时没用，但一群TFT相遇时，它们相互之间会合作获益、而对外则背叛不让别人占便宜。

做出来之后 Axelrod 把结果写成了一篇文章，附上了详细的分析，并邀请人们在研究过第一轮的经验教训后参加第二轮。第二轮他获得了63个参赛者，只有一个人原样提交了TFT策略——就是Rapoport本人。结果TFT又取得了胜利。

网上很多文章就讲到这里为止了，但是故事其实没有完。Axelrod 的实验里每个策略都是定死的，而对方的行为也是明确无误的，但自然界有突变、有噪音。如果把这些因素引入进来会如何？

————————————

所以 Nowak 做了一套新的实验，不是邀请全世界专家提交策略了，而是设一个大小合理的策略空间，允许每个个体在里面随机突变来选择策略，成功的个体产生更多后代。此外每次行为有一定概率产生噪音，比如对方明明应该出合作，但实际打出来变成了背叛。

起始值的策略是随机的。不出意外，这个一锅粥很快被【ALLD （永远背叛）】占据了。

但一段时间后会出现一小群抱团的个体，它们采用十分类似于TFT的策略，站住了脚跟。TFT永远是合作出现最好的催化剂，如果这个TFT群体足够大，那么合作会很快横扫整个群体。

可是TFT不是最后的胜利者，因为它无法应付噪音——两个本来合作得很好的TFT如果不小心遭遇一次误判，就会陷入一连串的背叛当中而失去优势。事实证明在 TFT占主体的基础上，会产生一种新策略将TFT取代——也即【 GTFT（慷慨的一报还一报）】。它的特点是，即使对方出了背叛，下一轮也有一定的概率选择合作，这样就可以挽救陷入无穷背叛的可能。此所谓“自然选择发现了宽恕”。

还没完。在GTFT 一统天下之后，【ALLC （永远合作）】就会出现。在一个所有人都是好人的社会里，反击坏人的能力会变得失去意义。随机漂变的作用使得ALLC比例上升。而且ALLC比GTFT更能应对噪音——GTFT还要等几回合才会宽容，ALLC当即就能拉回合作的“正轨”。

前提是正轨必须存在。当GTFT让位于ALLC之后，就为永远背叛的 ALLD 入侵敞开了大门。ALLD 一旦出现就会掌握巨大的优势，凭借它的背叛将所有ALLC打趴下，迅速占据了主导地位。于是新一轮的循环开始。

这个ALLD - TFT - GTFT - ALLC - ALLD 的循环是极其普遍的，而且它的普遍不止存在于博弈论模型里——好人合作打败了坏人，多年以后好人放松了警惕、坏人于是东山再起，这个叙事模型在各种故事传说里都太普遍了（《魔戒》就是个好例子）。至于这能否作为现实人类历史上战争和平循环的抽象表述，那就见仁见智了。

——————————————

但是有一种办法可以打破这个循环，那就是引入“反思”机制。在扩大了策略空间之后， Nowak 等人意外发现了一个新的策略可以长期稳定存在——【“输则改之，赢则加勉” ( WSLS, win-stay, lose-shift )】。这个策略也很简单，如果我上一轮赚了便宜、获得了T或者R的结果（不记得这两个字母请回开头复习），那么这一轮我继续刚才的策略。如果我上一轮吃了亏、获得了S或者P，那么这一轮我就换成另一种策略。

如果两个 WSLS 相遇，它们大部分时间都合作。万一遭遇了噪音，那么下一轮双方都背叛；再下一轮双方又合作了。纠错延迟只有1回合。这一点比GTFT更强，只比ALLC 弱一点点。

但是WSLS有个王牌，使得它不怕ALLC。那就是在和ALLC交手一段时间后，它会发现ALLC完全不懂得背叛。WSLS只要发生一次偶然背叛，之后就是永久背叛，使得老好人 ALLC 遭受惨无人道的剥削。这样一个WSLS不会随着时间推移而“放松警惕”变成ALLC，当然也就不会遭受ALLD的后续必然入侵。

唯一略微纠结的是面对 ALLD。如果R > (T+P) / 2 ，那么WSLS不怕ALLD。如果不满足，那么实验表明最后稳定的是WSLS的一个变体——遭遇双方背叛 P 的时候不必然改变策略，而只是以一定概率改变策略。无论如何，这个反思策略一旦出现，就很难会落入前面提到的那个恶性循环了。
————————————

虽然以上只是一个极其粗糙的模型，但说实话，面对现实社会中的现象，真的很难不联想啊。

作者: 李大苗 时间: 2013-6-28 12:17

“囚徒困境”是反诘古典自由主义最常用且最著名的案例，

但是，但凡那这个案例用作证明的人，应该都没有，或者没仔细阅读斯密的《国富论》。在这篇可谓永恒的伟大著作中，斯密有一专门章节来论说市场的条件，也就是交易者有“退出交易”的自由，也即可以理解为权利。市场是“自由人”的意愿集合。

所谓“囚徒困境”就是有限选择条件下的人身强制，参与者均不可“退出”，没有不参与的自由。所以谓之“囚徒”，而不是“自由人”。

欢迎光临燕谈 (http://www.yantan.us/bbs/)