自私还是利他？－－囚徒困境的一个例子

woi55 · 发表于 2006-6-2 21:07:32

今天来谈谈博弈论中的囚徒困境，这个题目大家可能都有所了解，但对它的具体扩展应用，或许还讨论得不多。我们先谈谈它的模型构建和均衡结果，然后讨论一个实际应用的例子。

囚徒困境（Prisoners' Dilemma）

1.策略博弈模型的构建

在一次严重刑事犯罪案件中，两名疑犯被分别关押。有充分的证据可以给两个人都定轻罪，但没有充分证据给其中任何一人定重罪，除非两人中有一个人愿意告发另一个人（告密）。

如果两人都保持沉默，他们将都被判轻罪入狱，刑期1年；
如果两人中有且仅有一个人选择告密，他将作为证人而获得免刑，而另一人则会被判入狱4年；
如果两人都选择告密，他们将都被判入狱3年。

根据策略博弈模型的定义，这个情形可以表示为一个策略博弈（strategic game）：

博弈者（Players）：两名疑犯。
行动集（Actions）：每个人的行动集合是 {沉默,告密}。
偏好（Preferences）：疑犯1对可能的行动组合（action profile，用 (a1,a2) 来表示，其中a1是博弈者1的行动，a2是博弈者2的行动）的偏好，按照从高到低的顺序排列，是：

(告密,沉默)：他告密，疑犯2沉默，因此他免刑；
(沉默,沉默)：他入狱1年；
(告密,告密)：他入狱3年；
(沉默,告密)：他入狱4年。

疑犯2的偏好顺序是：(沉默,告密)，(沉默,沉默)，(告密,告密)，(告密,沉默)。

可以用表格来更简洁地表达这个博弈。首先定义代表疑犯偏好顺序的回报函数（payoff function）。
对疑犯1，有回报函数
u1(告密,沉默)>u1(沉默,沉默)>u1(告密,告密)>u1(沉默,告密)。
可以简单定义u1(告密,沉默)=3，u1(沉默,沉默)=2，u1(告密,告密)=1，u1(沉默,告密)=0 （函数值只需能够表达出偏好顺序即可，具体大小无所谓）。
同理，对于疑犯2，可以定义：u2(沉默,告密)=3，u2(沉默,沉默)=2，u2(告密,告密)=1，u2(告密,沉默)=0。

有了这些定义，这个博弈可以表示为下表：



在这个表中，两行表示博弈者1的两种可能行动，两列表示博弈者2的两种可能行动，这样每一格就代表了一个行动组合，而每格中的数字则是这个行动组合中两个博弈者分别的回报值，博弈者1的回报值在前。

2.囚徒困境模型的纳什均衡（Nash Equilibrium）

根据纳什均衡的定义（可以简单理解为这样的行动组合：对于其中任何一个博弈者而言，如果只有他改变行动而别人不变，他获得的回报不会比不改变来得多。因此均衡也可以看成是博弈的最终结果），囚徒困境博弈有且只有一个纳什均衡：(告密,告密)。

因为：

i. 如果博弈者2选择告密，博弈者1选择告密将比选择沉默得到更大的回报（观察表格右边的那一列，1>0）；
ii.如果博弈者1选择告密，博弈者2选择告密将比选择沉默得到更大的回报（观察表格下边的那一行，1>0）；

其他行动组合不符合纳什均衡的定义：

(沉默,沉默)：当博弈者2选择沉默，博弈者1选择告密的回报大于他选择沉默（观察表格左边的那一列，3>2），因此他将改变行动；
(告密,沉默)：当博弈者1选择告密，博弈者2选择告密的回报大于他选择沉默（观察表格下边的那一行，1>0）；
(沉默,告密)：当博弈者2选择告密，博弈者1选择告密的回报大于他选择沉默（观察表格右边的那一列，1>0）。

可以看到，最终的纳什均衡，不是总回报最大的行动组合(沉默,沉默)。

自私和利他的社会行为

现在考虑一个囚徒困境的具体应用。

两个人上了一辆公共汽车。车上只剩两个狭小的相邻空座位。每个人要决定是坐下还是站着。单独坐着比坐在别人旁边舒服，而坐在别人旁边又比站着舒服。

a. 假设每个人都是自私的，即只考虑自己的舒适度。

b. 假设每个人都是利他的，即根据别人的舒适度来衡量自己行动的回报，并且出于礼貌，如果别人站着，自己也选择站着而非坐下。

问题：这两种情况的策略博弈模型分别是怎样的？它们是否是囚徒困境模型？有没有纳什均衡？

a.此时的博弈模型如下表：



可以看出，这个博弈不是囚徒困境博弈（不管是把坐下假设为沉默、把站着假设为告密还是相反，都不符合囚徒困境的特征），但此博弈有唯一的纳什均衡：(坐下,坐下)。

b. 此时的博弈模型如下表（α>0）：



可以看出，当α<1时，这个博弈是囚徒困境博弈。同时，不管α是何值，此博弈有唯一的纳什均衡：(站着,站着)。

比较a和b这两种情况的纳什均衡，可以得出一个有趣的结论：当每个人都自私的时候，要比人人都利他的时候过得更舒服一些。

至少在坐公共汽车的时候是这样。

（末注：本文大体译自Martin J. Osborne: An Introduction to Game Theory, 2004，行文略有调整）

woi55 · 发表于 2006-6-2 21:16:47

一篇简单的小文，结论比较有意思，拿出来大家看看，献丑了。请方家指正。

另：此文算是翻译，但自己做了一些调整，记忆中本版翻译亦属原创。若有问题，请版主指出，俺马上修改标题类别。

长歌－废墟 · 发表于 2006-6-2 23:58:51

引用第1楼woi55于2006-06-02 21:16发表的“”:
一篇简单的小文，结论比较有意思，拿出来大家看看，献丑了。请方家指正。

另：此文算是翻译，但自己做了一些调整，记忆中本版翻译亦属原创。若有问题，请版主指出，俺马上修改标题类别。

谢谢兄的支持，翻译的确实可以发在妙笔的，我也很喜欢博弈论。

枫子轩 · 发表于 2006-6-3 02:36:19

nash eq

在囚徒是个特例

根据它的法则（ best response) 会导致一个相对差的结果

还有些更有趣的2x2 game，比如会有2个随机的nash eq

fenglong88 · 发表于 2006-6-3 07:48:25

对博弈论的了解是从《美丽心灵》开始的。
了解了之后才明白，为什么麦当劳与肯德基，国美和苏宁相互追着开，因为在购买力有余的情况下，他们是采取双赢的策略。所以别希望哪一家更便宜，只要你掏钱，赚钱的绝对不是你。

枫子轩 · 发表于 2006-6-3 12:18:46

引用第4楼fenglong88于2006-06-03 07:48发表的“”:
对博弈论的了解是从《美丽心灵》开始的。
了解了之后才明白，为什么麦当劳与肯德基，国美和苏宁相互追着开，因为在购买力有余的情况下，他们是采取双赢的策略。所以别希望哪一家更便宜，只要你掏钱，赚钱的绝对不是你。

大家只看到他们竞争的一面，其实他们是最好的战略伙伴

只要有他们的交叉路口，很少有第3家的快餐

这已经一种默契

是2个人赚钱好，还是3个人好呢？

cdscs · 发表于 2006-10-31 17:20:31

楼主的第一个表数字有误，而且与文字说明不符。
文中说：如果两人都保持沉默，他们将都被判轻罪入狱，刑期1年。但表中为２年；
如果两人中有且仅有一个人选择告密，他将作为证人而获得免刑，而另一人则会被判入狱4年。但表中是０，３和３，０组合，即３年而不是４年；如果两人都选择告密，他们将都被判入狱3年。但表中为１年。
最大的错误是都保持沉默比都告密关押还久些，这是不合理的。
其余没细看。
指出这个问题是想告诉各位朋友引用时注意一下。没别的意思。感谢楼主的辛勤劳动。

woi55 · 发表于 2006-10-31 18:14:38

谢谢楼上朋友拨冗指点俺这篇粗陋旧帖。不过拙文表中数字均是代表博弈者偏好顺序的回报函数（payoff function）值（博弈表格的表达方式一般均如此）。具体到第一个表而言，其中的数字并非两名疑犯的可能刑期，而是不同策略的可能回报值。刑期越长，回报越低；刑期越短，回报越高。

这些拙文中亦有详细说明，请您耐心细看。

再次感谢您的跟贴。

robertchrs · 发表于 2006-10-31 20:56:01

在此不多说别的仅对woi55兄一直关心自己主题贴表示敬意，希望大家多向woi55兄学习，多多关心自己的主题贴。

飘峰 · 发表于 2006-11-1 09:24:17

看不懂，纯支持

草民一丁 · 发表于 2006-11-2 04:12:28

土学生的一个小问题:

疑犯2的偏好顺序是：(沉默,告密)，(沉默,沉默)，(告密,告密)，(告密,沉默)。
他的偏好显然是疑犯1偏好的互补.

俺的问题是, 如果他们两个的偏好不互补. 那这许多后面分析推演如果进行?

yuka · 发表于 2006-11-2 08:11:23

引用第10楼草民一丁于2006-11-02 04:12发表的“”:
土学生的一个小问题:

疑犯2的偏好顺序是：(沉默,告密)，(沉默,沉默)，(告密,告密)，(告密,沉默)。
他的偏好显然是疑犯1偏好的互补.

.......

恰好学过一点数学，但没弄明白草民兄指的互补关系是什么意思，这里()内前者是指疑犯1的选择，后者是指疑犯2的选择。每个疑犯只有沉默和告密两种选择，所以只有四种可能的组合，这已穷尽了四种可能，应该不存在草民兄提出的漏洞。而且顺序楼主介绍的还是很清楚的，疑犯2的偏好顺序与疑犯1一样是按照从高到低的顺序排列。

刚刚看到草民兄申请做版主，人微言轻，只能在这儿顺道支持一下，呵呵。

woi55 · 发表于 2006-11-2 08:18:37

哈哈，土人也光临俺的帖子，谢谢捧场！

土兄提出的这个问题，文中有这样的定义：

行动组合（action profile），用 (a1,a2) 来表示，其中a1是博弈者1的行动，a2是博弈者2的行动。

所以，所有的行动组合都表示为(a1,a2)，即不管是疑犯1的还是疑犯2的行动组合，都是逗号前面的是疑犯1的行动（a1），后面的是疑犯2的行动（a2）。这只是为了后面的讨论不致混乱而定义的一种统一的表记方法。

这样，对疑犯1最有利的行动组合(告密,沉默)，是指疑犯1告密而疑犯2沉默；同样，对疑犯2最有利的行动组合(沉默,告密)，是指疑犯1沉默而疑犯2告密。其他组合亦然，不再赘述。

因此，土人兄说二疑犯的偏好互补，其实并非如此，而应该是完全相同。这也很好理解：在这个博弈中，疑犯1和疑犯2是完全相同的两个博弈者，因此他们的策略也一定是相同的。

不知俺罗罗嗦嗦说明白没。再谢细心的土人兄！

woi55 · 发表于 2006-11-2 08:23:03

引用第11楼yuka于2006-11-02 08:11发表的“”:

……这里()内前者是指疑犯1的选择，后者是指疑犯2的选择。……

yuka兄正解。多谢兄帮忙。俺发帖前还没见您的解答，所以废话了一通，见笑。

现在不知道土人满意不？

yuka · 发表于 2006-11-2 09:07:13

呵呵，woi55太客氣了，最近在妙筆看到有關數學方面的帖子少，所以看到了就忍不住囘了帖。兄解釋甚為詳細，樓主如此耐心回復跟帖，俺還是很少見到，佩服佩服。
另外，俺看到兄的id非常眼熟，似乎在讀書中文經常見到。祝好，呵呵。

woi55 · 发表于 2006-11-2 09:29:12

俺说咋这么面善，原来是中文网那边的故人，哈哈，同好同好！

说实话，俺也希望数理方面的东西再多那么一点点，文史的兄弟们“独擅胜场”，岂不寂寞？

草民一丁 · 发表于 2006-11-2 12:15:38

谢谢.....两位的耐心讲解. 好, 真清楚. 只是,, 土人好象开始就理解错了.

俺以为这里讨论的是....比如, 给每人四次机会. 依次要1选,2选,1再选,2再选,1再再选,2再再选,......., 双方不知道对方的选择. 只根据双方的选项来分析.....那叫啥? 对, 机会损失或最大回报. 实际上, 这好象变成了概率论加心理学问题了.

........其实, 独眼只看了前面几段和结论. 这个贴很有点意思. 等俺看仔细些, 提些原始问题.

yuka? 谢谢你的支持. 只是, 显然老土的玩法管理层不入眼. 这次恐怕要辜负了各位兄弟的美意了......没发现? 平凡的小人物如何变成'公众'角色? 俺最近刚刚示范了一回----哗众取宠. 见笑,见笑.

woi55 · 发表于 2006-11-2 12:48:52

土人好眼光啊，“概率论加心理学”，一语切中了博弈论的要害了，强！
管理层不会放过你的，俺对你有信心，哈哈。

草民一丁 · 发表于 2006-11-2 13:28:49

爱哭兄弟就别那老土开涮了. 好, 下面是俺的学习'心得'.

囚徒困境:纳什均衡给出的实际上是总体最大损失. 也就是如果人人都黑了心的想着自己. 结果是大家付出的代价'极大'.
结论: 人人有点包容心, 厚道点儿, 总体回报'极大'. 反之,总体损失'极大'.

公共汽车的例子, b的博弈模型表为什么如此列, 俺没太懂, 爱哭兄还有耐心讲解么?

woi55 · 发表于 2006-11-2 14:36:06

土人兄，公共汽车那个例子的b模型，您只需把握一点，即此博弈中博弈者是“根据别人的舒适度来衡量自己行动的回报”的：别人舒服，自己回报就高；别人不舒服，自己回报也低。所以b表中每格的回报值与a表中相应的值正好相反。

至于α的使用，乃是为了讨论何时这个博弈是一个囚徒困境模型的。同时由于“出于礼貌，如果别人站着，自己也选择站着而非坐下”，所以α>0。

用户名		自动登录	找回密码
密码			注册

[【经管类原创】] 自私还是利他？－－囚徒困境的一个例子

本帖子中包含更多资源

浏览过的版块