Bayes Theory 貝氏定理
我們先敘述一下貝氏定理,等一下再舉一個在「快思慢想」這本書裡面提到的例子,來看看貝氏定理是怎麼用的,
以及對我們為何重要。
假設 $A, B$ 是兩個隨機事件, $P(A), P(B)$ 都不為 $0$,貝氏說了
\[P(A|B) = \frac{P(B|A)P(A)}{P(B)}\]證明:
\[P(A|B) P(B) = P(A \cap B) = P(B|A) P(A)\]我們來看看 快思慢想 (作者 Kahneman) 提到的 基準比例謬誤 (base rate neglect fallacy),
某天夜晚城裡發生了一件車禍,肇事的車子逃逸,有目擊證人指認那是一輛藍色的計程車。據統計城裡的計程車只有藍、綠兩種顏色;綠色車佔 85% ,藍色車僅佔 15% 。法庭檢驗證人在夜晚識別車色的能力,發現他識別正確的機率是80%,而識別錯誤的機率為20%。
當 Kahneman 做實驗去問受測者,你們認為肇事車輛為藍色的機率有多少,大部分人的答案是 80%。這可是犯了「基準比例謬誤 」的答案,也就是城裡「綠色車佔85%,藍色車只佔15%」這個基本比率所包含的資訊被大家忽略了。如果把基本比率納入考量,貝氏定理給的答案是
\[Pr(肇事車真為藍色|證人指認為藍色) = \frac{P(證人指認為藍色|肇事車真為藍色)P(肇事車真為藍色)}{P(證人指認為藍色)} \sim 0.41379\]這結果跟你想的答案一樣嗎? 80%, 41%, 你選的是哪一個?我們下面來詳細拆解這個結論過程。
假設有 100 輛車,根據已知 85 綠, 15 藍。
證人認對 | 證人認錯 | 總數 | |
---|---|---|---|
藍車 | 證人答藍車 (BT) | 證人答綠車 (BF) | 15 |
綠車 | 證人答綠車 (GT) | 證人答藍車 (GF) | 85 |
總數 | 80 | 20 | 100 |
我們一一來看,(BT),(BF),(GT),(GF),那四格應該是多少。
- (BT) = 15 * 4/5 = 12
- (BF) = 15 * 1/5 = 3
- (GT) = 85 * 4/5 = 68
- (GF) = 85 * 1/5 = 17
所以表格為
證人認對 | 證人認錯 | 總數 | |
---|---|---|---|
藍車 | 12 | 3 | 15 |
綠車 | 68 | 17 | 85 |
總數 | 80 | 20 | 100 |
那問題答案
\[Pr(肇事車真為藍色|證人指認為藍色) = \frac{12}{12+17} \sim 0.41379\]我們可以用貝氏再看一下這個問題
\[\frac{P(證人指認為藍色|肇事車真為藍色)P(肇事車真為藍色)}{P(證人指認為藍色)} = \frac{\frac{12}{12+3} * \frac{15}{100}}{ \frac{12+17}{100}} = \frac{12}{12+17}\]如果 $A,B$ 有順序,我們也可以用這種方式理解貝氏,
\[\begin{aligned} P(A|B) &= P(B|A) &*& P(A) &/& P(B) \\ 預測機率 &= 概似機率 &*& 先驗機率 &/& 條件發生機率 \\ Posterior &= Likelihood &*& Prior &/& Evidence \\ \end{aligned}\]我們把 $A, B$ 帶入上面的問題, $A =$ 肇事車真為藍色, $B =$ 證人指認為藍色,
因為在城裡面只有藍車 $15$ 輛,綠車 $85$ 輛,我們在還沒開庭前會有個預設概念是藍車的機率是 $0.15$ 這也是被稱為先驗機率,
也可以理解為事發之前的機率,假設城裡開車的每個人出車禍的機率都一樣。
然後證人上法庭,指認肇事的車子是藍色車,這就是證據 (evidence),通常這個機率是常數,你可以想成,大家一看到這個證人,對他的視力與當天夜晚的狀況等等條件得出的綜合概念。
那接下來我們會想問的就是假設 “肇事車真為藍色” 這前題下,證人指認出為藍色的機率是多少,因為證人也可能會認錯,這個機率也被稱為概似機率。
在開庭前我們有一個之前的刻板印象 $P(A)$ 先驗機率,知道證人是誰後,在他的指認下,我們就會產生一個新的機率
\[P(A|B)\]這也被稱為 後驗機率。 我們也可以參考很多其他的證據,我指的是傳喚很多證人去指證以便得到比較準確的機率。\
我們再舉一個垃圾郵件的例子,當我們收到一封新的信件,原本對於是不是垃圾郵件會有一個既往印象,雖然我常會收到一些沒用的信件,例如阿醜的抱怨信,但我還是很需要去信箱收取重要的信,例如小美的情書,
但是我可以建立一些特別的關鍵字去做篩選,例如信件裡面出現阿醜那有很大概率就是垃圾信,裡面出現小美那很大概率是重要的信,但是也有誤判的可能,例如阿醜在信裡面提到小美很漂亮想做朋友,這明明是阿醜寫的垃圾信,但只是因為信裡面有提到小美就被誤判不是垃圾信了。
如果上面的例子還不能真確感受到貝氏的概念,我再舉一個我們平常生活中會遇到的例子,假設你去買了刮刮樂,我們在購買之前會對中獎機率有一個概念,當看到刮出個謝謝
兩個字時,根據你多年豐富的人生經歷你還會繼續刮下去嗎?這就是看到一些證據後的後驗機率,那如果你看到的是恭喜
兩個字,你會不會非常開心,當然也可能只是 恭喜發財 再接再厲。