- UID
- 15607
- 帖子
- 303
- 精华
- 0
- 注册时间
- 2010-12-30
访问个人博客
|
楼主
发表于 2013-6-27 23:16
| 只看该作者
[转帖] [读书笔记]当重复囚徒困境遇到自然选择
| 时间:2013-06-27 09:07:09 来源:豆瓣 作者:Ent |
囚徒困境的故事太出名了,应该不用详细介绍吧……可能唯一值得说的是,如果令两个囚徒都合作的收益为R (reward),都背叛的收益为P (punishment),一方合作一方背叛则合作方得到 S (sucker)、背叛方得到T (temptation),那么一个经典囚徒困境必须是T > R > P > S. 不满足这个的就不是囚徒困境。
重复囚徒困境的故事这些年也慢慢出名了……如果是单次博弈,那么显然背叛永远优于合作。但是如果这个博弈要重复多次,那么合作就有了出头的机会。
当 年 Axelrod 做了一个名垂青史的实验:向全世界同行征集重复囚徒困境的策略,然后在计算机里让它们相互搏斗。第一次他征集到14个参赛者,最后获胜的出乎所有人意料是 最简单的策略——Rapoport 提交的【“一报还一报” (TFT, tit for tat)】。它只有两条规则:开场先合作,然后重复对方上一次的策略。它单独出现时没用,但一群TFT相遇时,它们相互之间会合作获益、而对外则背叛不让 别人占便宜。
做出来之后 Axelrod 把结果写成了一篇文章,附上了详细的分析,并邀请人们在研究过第一轮的经验教训后参加第二轮。第二轮他获得了63个参赛者,只有一个人原样提交了TFT策略——就是Rapoport本人。结果TFT又取得了胜利。
网上很多文章就讲到这里为止了,但是故事其实没有完。Axelrod 的实验里每个策略都是定死的,而对方的行为也是明确无误的,但自然界有突变、有噪音。如果把这些因素引入进来会如何?
————————————
所以 Nowak 做了一套新的实验,不是邀请全世界专家提交策略了,而是设一个大小合理的策略空间,允许每个个体在里面随机突变来选择策略,成功的个体产生更多后代。此外每次行为有一定概率产生噪音,比如对方明明应该出合作,但实际打出来变成了背叛。
起始值的策略是随机的。不出意外,这个一锅粥很快被【ALLD (永远背叛)】占据了。
但一段时间后会出现一小群抱团的个体,它们采用十分类似于TFT的策略,站住了脚跟。TFT永远是合作出现最好的催化剂,如果这个TFT群体足够大,那么合作会很快横扫整个群体。
可 是TFT不是最后的胜利者,因为它无法应付噪音——两个本来合作得很好的TFT如果不小心遭遇一次误判,就会陷入一连串的背叛当中而失去优势。事实证明在 TFT占主体的基础上,会产生一种新策略将TFT取代——也即【 GTFT(慷慨的一报还一报)】。它的特点是,即使对方出了背叛,下一轮也有一定的概率选择合作,这样就可以挽救陷入无穷背叛的可能。此所谓“自然选择发 现了宽恕”。
还没完。在GTFT 一统天下之后,【ALLC (永远合作)】就会出现。在一个所有人都是好人的社会里,反击坏人的能力会变得失去意义。随机漂变的作用使得ALLC比例上升。而且ALLC比GTFT更 能应对噪音——GTFT还要等几回合才会宽容,ALLC当即就能拉回合作的“正轨”。
前提是正轨必须存在。当GTFT让位于ALLC之后,就为永远背叛的 ALLD 入侵敞开了大门。ALLD 一旦出现就会掌握巨大的优势,凭借它的背叛将所有ALLC打趴下,迅速占据了主导地位。于是新一轮的循环开始。
这 个ALLD - TFT - GTFT - ALLC - ALLD 的循环是极其普遍的,而且它的普遍不止存在于博弈论模型里——好人合作打败了坏人,多年以后好人放松了警惕、坏人于是东山再起,这个叙事模型在各种故事传 说里都太普遍了(《魔戒》就是个好例子)。至于这能否作为现实人类历史上战争和平循环的抽象表述,那就见仁见智了。
——————————————
但 是有一种办法可以打破这个循环,那就是引入“反思”机制。在扩大了策略空间之后, Nowak 等人意外发现了一个新的策略可以长期稳定存在——【“输则改之,赢则加勉” ( WSLS, win-stay, lose-shift )】。这个策略也很简单,如果我上一轮赚了便宜、获得了T或者R的结果(不记得这两个字母请回开头复习) ,那么这一轮我继续刚才的策略。如果我上一轮吃了亏、获得了S或者P,那么这一轮我就换成另一种策略。
如果两个 WSLS 相遇,它们大部分时间都合作。万一遭遇了噪音,那么下一轮双方都背叛;再下一轮双方又合作了。纠错延迟只有1回合。这一点比GTFT更强,只比ALLC 弱一点点。
但 是WSLS有个王牌,使得它不怕ALLC。那就是在和ALLC交手一段时间后,它会发现ALLC完全不懂得背叛。WSLS只要发生一次偶然背叛,之后就是 永久背叛,使得老好人 ALLC 遭受惨无人道的剥削。 这样一个WSLS不会随着时间推移而“放松警惕”变成ALLC,当然也就不会遭受ALLD的后续必然入侵。
唯一略微纠结的是面对 ALLD。如果R > (T+P) / 2 ,那么WSLS不怕ALLD。如果不满足,那么实验表明最后稳定的是WSLS的一个变体——遭遇双方背叛 P 的时候不必然改变策略,而只是以一定概率改变策略。无论如何,这个反思策略一旦出现,就很难会落入前面提到的那个恶性循环了。
————————————
虽然以上只是一个极其粗糙的模型,但说实话,面对现实社会中的现象,真的很难不联想啊。
|
|
|