評：桌遊想德美 Ep.18《期望值多少》

最近看到有這樣的一則影片：

由於這其中觸及小弟在下我的本行，實在不得不跳出來講一下其中的諸多問題。以下就以作者在PTT上的逐字稿（Boardgame版50160篇）為基底進行回應。以下藍字是作者原本的文字，紅字是我的評論。

桌遊想德美 Ep.18《期望值多少》

心理學家特沃斯基設計了一個實驗，他弄了兩個玩遊戲拿獎金的方案給參與的人選，受測
者只能選擇其中一個，我把數字稍微換一下讓大家好理解

A方案的獎金和中獎機率是，33%中大獎120000元、66%中二獎100000元、1%沒中獎
B方案的獎金和中獎機率是，100%中二獎100000元

兩個方案都很賺，但選哪一個會賺更多呢？我們來算一下期望值
A方案33%120000元、66%100000元、1%0元，期望值是105600元
B方案100%100000元，期望值就是100000元

以期望值來說，A方案比B方案高出5600，應該是比較好的選項，但最後實驗的結果，只有
18%的人選擇A方案，而82%的人都選擇B方案穩穩拿10萬就好

欸照理說玩家不是應該選擇期望值比較高的行動才對嗎？這裡面漏掉了一個很重要的部分：人們主觀上對於風險、機率、期望值的評估，跟事實常常會有很大的落差

＂人們主觀上對於風險、機率、期望值的評估，跟事實常常會有很大的落差＂

這句話對特沃斯基（Amos Tversky）的展望理論（Prospect Theory）誤解就大了

這個理論是效用函數論（Utility Theory）的進階版本，所以我一步一步來介紹。

首先，效用函數論的大概念是：人們會去極大化他的＂效用＂，或著白話一點，＂爽度＂。注意，不是極大化＂錢＂，是＂爽＂。這是有差別的，因為100元增加到200元，以及10000元增加到10100元都是增加100元，但前者比後者增加的更爽。

更明確的說，效用函數認為每個人在有X塊錢的時候的爽度是U(X)，而他會試著去極大化U(X)的期望值EU(X)，而非X的期望值EX。

事實上，後續的實證研究我們已經知道，人類的U，一次微分大於零，二次微分小於零，三次微分大於零，等等等。在這個狀況下，人類自然會理性的採取所謂保守一點的策略，因為這個策略的U(X)期望值最大。這其中並沒有任何非理性的成份。
特沃斯基的展望理論則是進一步說，你的效用函數並不只取決於你現在有多少錢，還取決於你過去有多少錢。簡單的說，同樣是10000元，你從10100損失到10000，還是從9900賺到10000，兩個最後的爽度是不一樣的。這會進一步讓你更加採取保守的策略。
請注意，在以上的討論中，人都確實知道正確的機率、風險與期望值，並且在正確的資訊下，理性地選擇極大化效用的選項，得到一個保守的策略。所以沒有與事實相差很多的這件事情。效用函數另外有處理如果資訊有不確定性的狀況，但仍然是理性人假設下的討論。

在這個實驗裡，我們明明白白的告訴受測者，A方案失敗的機率只有1%，按理來說是很低

的風險，而且有33%蠻大的機會可以拿到12萬，多拿兩萬

但就人類心理的運作模式來說，比起追求最大的成功，通常更強烈的部分是去避免最大的

失敗、最大的痛苦

在這個情境下，最痛苦的情況就是，賭一把選了方案A，然後抽到籤王那1%沒有中獎，等

於是10萬塊白白飛了，這實在是太痛苦惹

所以大部分的人寧願退一步、選擇絕對安全的B方案來避免這種情況發生，就算拿少一點

也沒關係

並不是＂寧願退一步＂。如上所說，在這個理論下，人類是極大化效用而非極大化＂錢＂。他只是選擇了期望效用（爽度）最大的選項，而那個選項不是期望金額最多的選項，僅此而已。

特沃斯基的結論是，當人有相對安全的選項時，他們是非常保守的，大多數的人寧願選擇

低風險、拿少一點，而非冒一點點的險去賭一把拿更多

但有趣的是，如果把實驗的問題完全顛倒過來，從拿獎金變成少賠錢，現在你要賠10萬

方案A是可以賭一把有1%的機率不用賠錢，但有33%要多賠2萬

方案B則是直接賠10萬

這個時候，人們反而又會跑去選擇方案A賭一把看看能不能不用賠錢，很妙吧？

為什麼33％能賺更多錢的時候，你不敢賭那1％；

33％要賠更多錢的時候，你反而就敢賭了？

因為人天生有一種趨向+-0的心態，這也說明了賭徒之所以會傾家蕩產的原因...

我是不知道這個＂趨向+-0的心態＂是指什麼，但這只是展望理論的基本範例：賺跟賠的爽度是不對稱的，即使賺賠的幅度一樣。

然後賭徒傾家蕩產的原因是Overconfidence而非展望理論... 如果照展望理論，賠痛的比賺爽的多，所以你一賠就會收手，怎麼還會傾家蕩產？

回到遊戲，我們前面學機率學得要死是為了什麼？可以說就是為了來計算期望值

遊戲設計者必須知道遊戲裡的每一個行動會帶來多少效益，把這些效益量化之後，才有可

能去平衡他們，並往你想要的方向修正和調整

這些背後的數值，才是真正替整個遊戲定調的東西，掌握數值的來去，也就能預期玩家們

在面對不同的情況下，會做出什麼樣的選擇

你自己都引展望理論了，就應該知道說要預期玩家行為，你需要的是玩家的效用函數，而非僅僅是期望值。再次強調，關鍵是極大化預期效用，而非極大化＂錢＂。

比如說踩到某一格，會讓你丟一顆6面骰，然後給你跟點數一樣的錢，平均來說踩到這格

可以拿多少錢呢？

隨著骰子的點數，我們可能拿1元、2元、3元、4元、5元、6元，乘上每一種各自的機率（

都1/6），加總起來就是3.5元

一顆骰子的期望值是3.5，骰兩顆的話，3.5+3.5就是7，還記得卡坦島嗎？7最容易出現，

所以你也可以把期望值當成是一個懶人包的概念，幫你指出某一個行動理想上大致傾向帶

出多少的數值

如果我們改一下，改成踩到這格一樣擲骰，但是只有骰到奇數拿錢、骰到偶數反而要扣錢

呢？這時候就會變成+1、-2、+3、-4、+5、-6，乘上機率，總和加起來就是-0.5，也就是

說踩到這一格反而平均會扣0.5元

當期望值是正的，這一格就比較傾向獎勵；如果是負的，就比較傾向懲罰，看你想要怎麼

搭配

這裡我又混亂了。所以你現在是站在＂玩家心理上的獎勵或懲罰＂，還是＂期望值上的正負＂？以學術的術語，你這裡的獎勵與懲罰，是針對風險中立（Risk Neutral）還是風險趨避（Risk Averse）的人？

來實際操作看看吧，如果我們給玩家3種法術火、冰、雷，而他們的傷害值與命中率如下

火球術最基本，威力是4點傷害，100%命中；冰封球有5點傷害，但是只有80%命中；雷電
球威力最強，打一下就40點傷害，但是命中率超爛，只有20%
假設這3種法術的耗魔都一樣，玩家會想用哪一種呢？算算期望值就知道了

火球術100%、4點傷害，所以期望值是4；冰封球80%、5點傷害，0.8x5，期望值一樣是4；
而雷電球20%造成40點傷害，0.2x40，期望值就是8點傷害

火球術跟冰封球都是4點，而雷電球是8點，所以我們可以合理推測，玩家應該會選雷電球
，因為它的效益最高，而且高兩倍

但這裡有個陷阱，如果今天地圖上的小怪，全部都只有10滴血的話呢？雷電球一次可以轟
40滴，但我用不到啊，雖然用火球或冰球要打3下，用雷電球只要1下

但最高只有10點傷害的話，20％的命中造成10點傷害，等於期望值只有2，效益反而比火
球冰球還要低一半
像這類的小地方就要特別注意，很容易變成考量數值的盲點

這裡又把事情搞得更混亂了。你現在面臨到的事情是，10滴血或40滴血，在這裡都等於＂1隻小怪＂，所以你的分數變成一個非線型函數。你的分數還是分數，只是它變成非線性的，極大化的這件事情沒有變。

最後別忘了，玩家永遠是最大的變數

就算你小心合理的平衡了這些數值，玩家也有可能不會照著你所預期的去走，因為他們並

不知道這些選項背後的期望值，只能從遊戲當下的實際體驗去感覺

比如剛才我們設定的3種法術，你並沒有告訴玩家他們各自的威力和命中率，如果某位玩

家用了幾次雷電球，剛好都沒有打中敵人，那他可能就不會再使用雷電球了，因為雷電球

的命中率太低，對他而言，這個法術的期望值根本就是0

還記得一開始特沃斯基A方案B方案的問題嗎？就算你把背後的數據全都公開，玩家也有可

能就是不照你想的走，這也是遊戲設計上很有挑戰性的一環

不是，是因為打從一開始，從你引特沃斯基的問題時，你就已經預設人類是依照極大化EU(X)來進行選擇，所以你用極大化EX來設計，當然不能刻畫玩家的行動啊！

北極海豹堡 - 高竹嵐的家

網頁

2017年6月2日星期五