2017年6月2日 星期五

評:桌遊想德美 Ep.18《期望值多少》

最近看到有這樣的一則影片:

由於這其中觸及小弟在下我的本行,實在不得不跳出來講一下其中的諸多問題。以下就以作者在PTT上的逐字稿(Boardgame版50160篇)為基底進行回應。以下藍字是作者原本的文字,紅字是我的評論。



桌遊想德美 Ep.18《期望值多少》
                                                                                
心理學家特沃斯基設計了一個實驗,他弄了兩個玩遊戲拿獎金的方案給參與的人選,受測
者只能選擇其中一個,我把數字稍微換一下讓大家好理解
                                                                                                                                                               
A方案的獎金和中獎機率是,33%中大獎120000元、66%中二獎100000元、1%沒中獎
B方案的獎金和中獎機率是,100%中二獎100000元
                                                                                
兩個方案都很賺,但選哪一個會賺更多呢?我們來算一下期望值
A方案33%120000元、66%100000元、1%0元,期望值是105600元
B方案100%100000元,期望值就是100000元
                                                                                
以期望值來說,A方案比B方案高出5600,應該是比較好的選項,但最後實驗的結果,只有
18%的人選擇A方案,而82%的人都選擇B方案穩穩拿10萬就好
                                                                                
欸照理說玩家不是應該選擇期望值比較高的行動才對嗎?這裡面漏掉了一個很重要的部分:人們主觀上對於風險、機率、期望值的評估,跟事實常常會有很大的落差

"人們主觀上對於風險、機率、期望值的評估,跟事實常常會有很大的落差"
這句話對特沃斯基(Amos Tversky)的展望理論(Prospect Theory)誤解就大了
這個理論是效用函數論(Utility Theory)的進階版本,所以我一步一步來介紹。
  1. 首先,效用函數論的大概念是:人們會去極大化他的"效用",或著白話一點,"爽度"。注意,不是極大化"錢",是"爽"。這是有差別的,因為100元增加到200元,以及10000元增加到10100元都是增加100元,但前者比後者增加的更爽。

    更明確的說,效用函數認為每個人在有X塊錢的時候的爽度是U(X),而他會試著去極大化U(X)的期望值EU(X),而非X的期望值EX。

    事實上,後續的實證研究我們已經知道,人類的U,一次微分大於零,二次微分小於零,三次微分大於零,等等等。在這個狀況下,人類自然會理性的採取所謂保守一點的策略,因為這個策略的U(X)期望值最大。這其中並沒有任何非理性的成份。
  2. 特沃斯基的展望理論則是進一步說,你的效用函數並不只取決於你現在有多少錢,還取決於你過去有多少錢。簡單的說,同樣是10000元,你從10100損失到10000,還是從9900賺到10000,兩個最後的爽度是不一樣的。這會進一步讓你更加採取保守的策略。
  3. 請注意,在以上的討論中,人都確實知道正確的機率、風險與期望值,並且在正確的資訊下,理性地選擇極大化效用的選項,得到一個保守的策略。所以沒有與事實相差很多的這件事情。效用函數另外有處理如果資訊有不確定性的狀況,但仍然是理性人假設下的討論。                                                                             
在這個實驗裡,我們明明白白的告訴受測者,A方案失敗的機率只有1%,按理來說是很低
的風險,而且有33%蠻大的機會可以拿到12萬,多拿兩萬
                                                                                
但就人類心理的運作模式來說,比起追求最大的成功,通常更強烈的部分是去避免最大的
失敗、最大的痛苦
                                                                                
在這個情境下,最痛苦的情況就是,賭一把選了方案A,然後抽到籤王那1%沒有中獎,等
於是10萬塊白白飛了,這實在是太痛苦惹
                                                                                
所以大部分的人寧願退一步、選擇絕對安全的B方案來避免這種情況發生,就算拿少一點
也沒關係

並不是"寧願退一步"。如上所說,在這個理論下,人類是極大化效用而非極大化"錢"。他只是選擇了期望效用(爽度)最大的選項,而那個選項不是期望金額最多的選項,僅此而已。
                                                                                
特沃斯基的結論是,當人有相對安全的選項時,他們是非常保守的,大多數的人寧願選擇
低風險、拿少一點,而非冒一點點的險去賭一把拿更多
                                                                                
但有趣的是,如果把實驗的問題完全顛倒過來,從拿獎金變成少賠錢,現在你要賠10萬
方案A是可以賭一把有1%的機率不用賠錢,但有33%要多賠2萬
方案B則是直接賠10萬
                                                                                
這個時候,人們反而又會跑去選擇方案A賭一把看看能不能不用賠錢,很妙吧?
為什麼33%能賺更多錢的時候,你不敢賭那1%;
33%要賠更多錢的時候,你反而就敢賭了?
                                                                                
因為人天生有一種趨向+-0的心態,這也說明了賭徒之所以會傾家蕩產的原因...

我是不知道這個"趨向+-0的心態"是指什麼,但這只是展望理論的基本範例:賺跟賠的爽度是不對稱的,即使賺賠的幅度一樣。

然後賭徒傾家蕩產的原因是Overconfidence而非展望理論... 如果照展望理論,賠痛的比賺爽的多,所以你一賠就會收手,怎麼還會傾家蕩產?

回到遊戲,我們前面學機率學得要死是為了什麼?可以說就是為了來計算期望值
                                                                                
遊戲設計者必須知道遊戲裡的每一個行動會帶來多少效益,把這些效益量化之後,才有可
能去平衡他們,並往你想要的方向修正和調整
                                                                                
這些背後的數值,才是真正替整個遊戲定調的東西,掌握數值的來去,也就能預期玩家們
在面對不同的情況下,會做出什麼樣的選擇
                                                                                
你自己都引展望理論了,就應該知道說要預期玩家行為,你需要的是玩家的效用函數,而非僅僅是期望值。再次強調,關鍵是極大化預期效用,而非極大化"錢"。
                                                                                
比如說踩到某一格,會讓你丟一顆6面骰,然後給你跟點數一樣的錢,平均來說踩到這格
可以拿多少錢呢?
                                                                                
隨著骰子的點數,我們可能拿1元、2元、3元、4元、5元、6元,乘上每一種各自的機率(
都1/6),加總起來就是3.5元
                                                                                
一顆骰子的期望值是3.5,骰兩顆的話,3.5+3.5就是7,還記得卡坦島嗎?7最容易出現,
所以你也可以把期望值當成是一個懶人包的概念,幫你指出某一個行動理想上大致傾向帶
出多少的數值
                                                                                
如果我們改一下,改成踩到這格一樣擲骰,但是只有骰到奇數拿錢、骰到偶數反而要扣錢
呢?這時候就會變成+1、-2、+3、-4、+5、-6,乘上機率,總和加起來就是-0.5,也就是
說踩到這一格反而平均會扣0.5元
                                                                                
當期望值是正的,這一格就比較傾向獎勵;如果是負的,就比較傾向懲罰,看你想要怎麼
搭配

這裡我又混亂了。所以你現在是站在"玩家心理上的獎勵或懲罰",還是"期望值上的正負"?以學術的術語,你這裡的獎勵與懲罰,是針對風險中立(Risk Neutral)還是風險趨避(Risk Averse)的人?
                                                                                
來實際操作看看吧,如果我們給玩家3種法術火、冰、雷,而他們的傷害值與命中率如下
                                                                                
火球術最基本,威力是4點傷害,100%命中;冰封球有5點傷害,但是只有80%命中;雷電
球威力最強,打一下就40點傷害,但是命中率超爛,只有20%
假設這3種法術的耗魔都一樣,玩家會想用哪一種呢?算算期望值就知道了
                                                                                
火球術100%、4點傷害,所以期望值是4;冰封球80%、5點傷害,0.8x5,期望值一樣是4;
而雷電球20%造成40點傷害,0.2x40,期望值就是8點傷害
                                                                                
火球術跟冰封球都是4點,而雷電球是8點,所以我們可以合理推測,玩家應該會選雷電球
,因為它的效益最高,而且高兩倍
                                                                                
但這裡有個陷阱,如果今天地圖上的小怪,全部都只有10滴血的話呢?雷電球一次可以轟
40滴,但我用不到啊,雖然用火球或冰球要打3下,用雷電球只要1下
                                                                                
但最高只有10點傷害的話,20%的命中造成10點傷害,等於期望值只有2,效益反而比火
球冰球還要低一半
像這類的小地方就要特別注意,很容易變成考量數值的盲點
                                                                                
這裡又把事情搞得更混亂了。你現在面臨到的事情是,10滴血或40滴血,在這裡都等於"1隻小怪",所以你的分數變成一個非線型函數。你的分數還是分數,只是它變成非線性的,極大化的這件事情沒有變。
                                                                                
最後別忘了,玩家永遠是最大的變數
就算你小心合理的平衡了這些數值,玩家也有可能不會照著你所預期的去走,因為他們並
不知道這些選項背後的期望值,只能從遊戲當下的實際體驗去感覺
                                                                                
比如剛才我們設定的3種法術,你並沒有告訴玩家他們各自的威力和命中率,如果某位玩
家用了幾次雷電球,剛好都沒有打中敵人,那他可能就不會再使用雷電球了,因為雷電球
的命中率太低,對他而言,這個法術的期望值根本就是0
                                                                                
還記得一開始特沃斯基A方案B方案的問題嗎?就算你把背後的數據全都公開,玩家也有可
能就是不照你想的走,這也是遊戲設計上很有挑戰性的一環

不是,是因為打從一開始,從你引特沃斯基的問題時,你就已經預設人類是依照極大化EU(X)來進行選擇,所以你用極大化EX來設計,當然不能刻畫玩家的行動啊!

沒有留言:

張貼留言