woi55 发表于 2006-6-2 21:07:32

自私还是利他?--囚徒困境的一个例子

今天来谈谈博弈论中的囚徒困境,这个题目大家可能都有所了解,但对它的具体扩展应用,或许还讨论得不多。我们先谈谈它的模型构建和均衡结果,然后讨论一个实际应用的例子。

囚徒困境(Prisoners' Dilemma)

1.策略博弈模型的构建

在一次严重刑事犯罪案件中,两名疑犯被分别关押。有充分的证据可以给两个人都定轻罪,但没有充分证据给其中任何一人定重罪,除非两人中有一个人愿意告发另一个人(告密)。

如果两人都保持沉默,他们将都被判轻罪入狱,刑期1年;
如果两人中有且仅有一个人选择告密,他将作为证人而获得免刑,而另一人则会被判入狱4年;
如果两人都选择告密,他们将都被判入狱3年。

根据策略博弈模型的定义,这个情形可以表示为一个策略博弈(strategic game):

博弈者(Players):两名疑犯。
行动集(Actions):每个人的行动集合是 {沉默,告密}。
偏好(Preferences):疑犯1对可能的行动组合(action profile,用 (a1,a2) 来表示,其中a1是博弈者1的行动,a2是博弈者2的行动)的偏好,按照从高到低的顺序排列,是:

(告密,沉默):他告密,疑犯2沉默,因此他免刑;
(沉默,沉默):他入狱1年;
(告密,告密):他入狱3年;
(沉默,告密):他入狱4年。

疑犯2的偏好顺序是:(沉默,告密),(沉默,沉默),(告密,告密),(告密,沉默)。

可以用表格来更简洁地表达这个博弈。首先定义代表疑犯偏好顺序的回报函数(payoff function)。
对疑犯1,有回报函数
u1(告密,沉默)>u1(沉默,沉默)>u1(告密,告密)>u1(沉默,告密)。
可以简单定义u1(告密,沉默)=3,u1(沉默,沉默)=2,u1(告密,告密)=1,u1(沉默,告密)=0 (函数值只需能够表达出偏好顺序即可,具体大小无所谓)。
同理,对于疑犯2,可以定义:u2(沉默,告密)=3,u2(沉默,沉默)=2,u2(告密,告密)=1,u2(告密,沉默)=0。

有了这些定义,这个博弈可以表示为下表:




在这个表中,两行表示博弈者1的两种可能行动,两列表示博弈者2的两种可能行动,这样每一格就代表了一个行动组合,而每格中的数字则是这个行动组合中两个博弈者分别的回报值,博弈者1的回报值在前。

2.囚徒困境模型的纳什均衡(Nash Equilibrium)

根据纳什均衡的定义(可以简单理解为这样的行动组合:对于其中任何一个博弈者而言,如果只有他改变行动而别人不变,他获得的回报不会比不改变来得多。因此均衡也可以看成是博弈的最终结果),囚徒困境博弈有且只有一个纳什均衡:(告密,告密)。

因为:

i. 如果博弈者2选择告密,博弈者1选择告密将比选择沉默得到更大的回报(观察表格右边的那一列,1>0);
ii.如果博弈者1选择告密,博弈者2选择告密将比选择沉默得到更大的回报(观察表格下边的那一行,1>0);

其他行动组合不符合纳什均衡的定义:

(沉默,沉默):当博弈者2选择沉默,博弈者1选择告密的回报大于他选择沉默(观察表格左边的那一列,3>2),因此他将改变行动;
(告密,沉默):当博弈者1选择告密,博弈者2选择告密的回报大于他选择沉默(观察表格下边的那一行,1>0);
(沉默,告密):当博弈者2选择告密,博弈者1选择告密的回报大于他选择沉默(观察表格右边的那一列,1>0)。

可以看到,最终的纳什均衡,不是总回报最大的行动组合(沉默,沉默)。



自私和利他的社会行为

现在考虑一个囚徒困境的具体应用。

两个人上了一辆公共汽车。车上只剩两个狭小的相邻空座位。每个人要决定是坐下还是站着。单独坐着比坐在别人旁边舒服,而坐在别人旁边又比站着舒服。

a. 假设每个人都是自私的,即只考虑自己的舒适度。

b. 假设每个人都是利他的,即根据别人的舒适度来衡量自己行动的回报,并且出于礼貌,如果别人站着,自己也选择站着而非坐下。

问题:这两种情况的策略博弈模型分别是怎样的?它们是否是囚徒困境模型?有没有纳什均衡?

a.此时的博弈模型如下表:




可以看出,这个博弈不是囚徒困境博弈(不管是把坐下假设为沉默、把站着假设为告密还是相反,都不符合囚徒困境的特征),但此博弈有唯一的纳什均衡:(坐下,坐下)。

b. 此时的博弈模型如下表(α>0):




可以看出,当α<1时,这个博弈是囚徒困境博弈。同时,不管α是何值,此博弈有唯一的纳什均衡:(站着,站着)。

比较a和b这两种情况的纳什均衡,可以得出一个有趣的结论:当每个人都自私的时候,要比人人都利他的时候过得更舒服一些。

至少在坐公共汽车的时候是这样。




(末注:本文大体译自Martin J. Osborne: An Introduction to Game Theory, 2004,行文略有调整)

woi55 发表于 2006-6-2 21:16:47

一篇简单的小文,结论比较有意思,拿出来大家看看,献丑了。请方家指正。

另:此文算是翻译,但自己做了一些调整,记忆中本版翻译亦属原创。若有问题,请版主指出,俺马上修改标题类别。

长歌-废墟 发表于 2006-6-2 23:58:51

引用第1楼woi55于2006-06-02 21:16发表的“”:
一篇简单的小文,结论比较有意思,拿出来大家看看,献丑了。请方家指正。

另:此文算是翻译,但自己做了一些调整,记忆中本版翻译亦属原创。若有问题,请版主指出,俺马上修改标题类别。
谢谢兄的支持,翻译的确实可以发在妙笔的,我也很喜欢博弈论。

枫子轩 发表于 2006-6-3 02:36:19

nash eq

在囚徒是个特例

根据它的法则( best response) 会导致一个相对差的结果

还有些更有趣的2x2 game,比如会有2个随机的nash eq

fenglong88 发表于 2006-6-3 07:48:25

对博弈论的了解是从《美丽心灵》开始的。
了解了之后才明白,为什么麦当劳与肯德基,国美和苏宁相互追着开,因为在购买力有余的情况下,他们是采取双赢的策略。所以别希望哪一家更便宜,只要你掏钱,赚钱的绝对不是你。

枫子轩 发表于 2006-6-3 12:18:46

引用第4楼fenglong88于2006-06-03 07:48发表的“”:
对博弈论的了解是从《美丽心灵》开始的。
了解了之后才明白,为什么麦当劳与肯德基,国美和苏宁相互追着开,因为在购买力有余的情况下,他们是采取双赢的策略。所以别希望哪一家更便宜,只要你掏钱,赚钱的绝对不是你。


大家只看到他们竞争的一面,其实他们是最好的战略伙伴

只要有他们的交叉路口,很少有第3家的快餐

这已经一种默契

是2个人赚钱好,还是3个人好呢?

cdscs 发表于 2006-10-31 17:20:31

楼主的第一个表数字有误,而且与文字说明不符。
文中说:如果两人都保持沉默,他们将都被判轻罪入狱,刑期1年。但表中为2年;
如果两人中有且仅有一个人选择告密,他将作为证人而获得免刑,而另一人则会被判入狱4年。但表中是0,3和3,0组合,即3年而不是4年;如果两人都选择告密,他们将都被判入狱3年。但表中为1年。
最大的错误是都保持沉默比都告密关押还久些,这是不合理的。
其余没细看。
指出这个问题是想告诉各位朋友引用时注意一下。没别的意思。感谢楼主的辛勤劳动。

woi55 发表于 2006-10-31 18:14:38

谢谢楼上朋友拨冗指点俺这篇粗陋旧帖。不过拙文表中数字均是代表博弈者偏好顺序的回报函数(payoff function)值(博弈表格的表达方式一般均如此)。具体到第一个表而言,其中的数字并非两名疑犯的可能刑期,而是不同策略的可能回报值。刑期越长,回报越低;刑期越短,回报越高。

这些拙文中亦有详细说明,请您耐心细看。

再次感谢您的跟贴。

robertchrs 发表于 2006-10-31 20:56:01

在此不多说别的仅对woi55兄一直关心自己主题贴表示敬意,希望大家多向woi55兄学习,多多关心自己的主题贴。

飘峰 发表于 2006-11-1 09:24:17

看不懂,纯支持

草民一丁 发表于 2006-11-2 04:12:28

土学生的一个小问题:

疑犯2的偏好顺序是:(沉默,告密),(沉默,沉默),(告密,告密),(告密,沉默)。
他的偏好显然是疑犯1偏好的互补.

俺的问题是, 如果他们两个的偏好不互补. 那这许多后面分析推演如果进行?

yuka 发表于 2006-11-2 08:11:23

引用第10楼草民一丁于2006-11-02 04:12发表的“”:
土学生的一个小问题:

疑犯2的偏好顺序是:(沉默,告密),(沉默,沉默),(告密,告密),(告密,沉默)。
他的偏好显然是疑犯1偏好的互补.

.......
恰好学过一点数学,但没弄明白草民兄指的互补关系是什么意思,这里()内前者是指疑犯1的选择,后者是指疑犯2的选择。每个疑犯只有沉默和告密两种选择,所以只有四种可能的组合,这已穷尽了四种可能,应该不存在草民兄提出的漏洞。而且顺序楼主介绍的还是很清楚的,疑犯2的偏好顺序与疑犯1一样是按照从高到低的顺序排列。

刚刚看到草民兄申请做版主,人微言轻,只能在这儿顺道支持一下,呵呵。

woi55 发表于 2006-11-2 08:18:37

哈哈,土人也光临俺的帖子,谢谢捧场!

土兄提出的这个问题,文中有这样的定义:

行动组合(action profile),用 (a1,a2) 来表示,其中a1是博弈者1的行动,a2是博弈者2的行动。

所以,所有的行动组合都表示为(a1,a2),即不管是疑犯1的还是疑犯2的行动组合,都是逗号前面的是疑犯1的行动(a1),后面的是疑犯2的行动(a2)。这只是为了后面的讨论不致混乱而定义的一种统一的表记方法。

这样,对疑犯1最有利的行动组合(告密,沉默),是指疑犯1告密而疑犯2沉默;同样,对疑犯2最有利的行动组合(沉默,告密),是指疑犯1沉默而疑犯2告密。其他组合亦然,不再赘述。

因此,土人兄说二疑犯的偏好互补,其实并非如此,而应该是完全相同。这也很好理解:在这个博弈中,疑犯1和疑犯2是完全相同的两个博弈者,因此他们的策略也一定是相同的。

不知俺罗罗嗦嗦说明白没。再谢细心的土人兄!

woi55 发表于 2006-11-2 08:23:03

引用第11楼yuka于2006-11-02 08:11发表的“”:

……这里()内前者是指疑犯1的选择,后者是指疑犯2的选择。……


yuka兄正解。多谢兄帮忙。俺发帖前还没见您的解答,所以废话了一通,见笑。
现在不知道土人满意不?

yuka 发表于 2006-11-2 09:07:13

呵呵,woi55太客氣了,最近在妙筆看到有關數學方面的帖子少,所以看到了就忍不住囘了帖。兄解釋甚為詳細,樓主如此耐心回復跟帖,俺還是很少見到,佩服佩服。
另外,俺看到兄的id非常眼熟,似乎在讀書中文經常見到。祝好,呵呵。

woi55 发表于 2006-11-2 09:29:12

俺说咋这么面善,原来是中文网那边的故人,哈哈,同好同好!
说实话,俺也希望数理方面的东西再多那么一点点,文史的兄弟们“独擅胜场”,岂不寂寞?

草民一丁 发表于 2006-11-2 12:15:38

谢谢.....两位的耐心讲解. 好, 真清楚. 只是,, 土人好象开始就理解错了.

俺以为这里讨论的是....比如, 给每人四次机会. 依次要1选,2选,1再选,2再选,1再再选,2再再选,......., 双方不知道对方的选择. 只根据双方的选项来分析.....那叫啥? 对, 机会损失或最大回报. 实际上, 这好象变成了概率论加心理学问题了.

........其实, 独眼只看了前面几段和结论. 这个贴很有点意思. 等俺看仔细些, 提些原始问题.

yuka? 谢谢你的支持. 只是, 显然老土的玩法管理层不入眼. 这次恐怕要辜负了各位兄弟的美意了......没发现? 平凡的小人物如何变成&#39;公众&#39;角色? 俺最近刚刚示范了一回----哗众取宠. 见笑,见笑.

woi55 发表于 2006-11-2 12:48:52

土人好眼光啊,“概率论加心理学”,一语切中了博弈论的要害了,强!
管理层不会放过你的,俺对你有信心,哈哈。

草民一丁 发表于 2006-11-2 13:28:49

爱哭兄弟就别那老土开涮了. 好, 下面是俺的学习&#39;心得&#39;.


囚徒困境:纳什均衡给出的实际上是总体最大损失. 也就是如果人人都黑了心的想着自己. 结果是大家付出的代价&#39;极大&#39;.
结论: 人人有点包容心, 厚道点儿, 总体回报&#39;极大&#39;. 反之,总体损失&#39;极大&#39;.

公共汽车的例子, b的博弈模型表为什么如此列, 俺没太懂, 爱哭兄还有耐心讲解么?

woi55 发表于 2006-11-2 14:36:06

土人兄,公共汽车那个例子的b模型,您只需把握一点,即此博弈中博弈者是“根据别人的舒适度来衡量自己行动的回报”的:别人舒服,自己回报就高;别人不舒服,自己回报也低。所以b表中每格的回报值与a表中相应的值正好相反。

至于α的使用,乃是为了讨论何时这个博弈是一个囚徒困境模型的。同时由于“出于礼貌,如果别人站着,自己也选择站着而非坐下”,所以α>0。
页: [1] 2
查看完整版本: 自私还是利他?--囚徒困境的一个例子