Skip to the content.

Bayes Theory 貝氏定理

我們先敘述一下貝氏定理,等一下再舉一個在「快思慢想」這本書裡面提到的例子,來看看貝氏定理是怎麼用的, 以及對我們為何重要。

假設 $A, B$ 是兩個隨機事件, $P(A), P(B)$ 都不為 $0$,貝氏說了

\[P(A|B) = \frac{P(B|A)P(A)}{P(B)}\]

證明:

\[P(A|B) P(B) = P(A \cap B) = P(B|A) P(A)\]

我們來看看 快思慢想 (作者 Kahneman) 提到的 基準比例謬誤 (base rate neglect fallacy),
某天夜晚城裡發生了一件車禍,肇事的車子逃逸,有目擊證人指認那是一輛藍色的計程車。據統計城裡的計程車只有藍、綠兩種顏色;綠色車佔 85% ,藍色車僅佔 15% 。法庭檢驗證人在夜晚識別車色的能力,發現他識別正確的機率是80%,而識別錯誤的機率為20%。

當 Kahneman 做實驗去問受測者,你們認為肇事車輛為藍色的機率有多少,大部分人的答案是 80%。這可是犯了「基準比例謬誤 」的答案,也就是城裡「綠色車佔85%,藍色車只佔15%」這個基本比率所包含的資訊被大家忽略了。如果把基本比率納入考量,貝氏定理給的答案是

\[Pr(肇事車真為藍色|證人指認為藍色) = \frac{P(證人指認為藍色|肇事車真為藍色)P(肇事車真為藍色)}{P(證人指認為藍色)} \sim 0.41379\]

這結果跟你想的答案一樣嗎? 80%, 41%, 你選的是哪一個?我們下面來詳細拆解這個結論過程。

假設有 100 輛車,根據已知 85 綠, 15 藍。

  證人認對 證人認錯 總數
藍車 證人答藍車 (BT) 證人答綠車 (BF) 15
綠車 證人答綠車 (GT) 證人答藍車 (GF) 85
總數 80 20 100

我們一一來看,(BT),(BF),(GT),(GF),那四格應該是多少。

所以表格為

  證人認對 證人認錯 總數
藍車 12 3 15
綠車 68 17 85
總數 80 20 100

那問題答案

\[Pr(肇事車真為藍色|證人指認為藍色) = \frac{12}{12+17} \sim 0.41379\]

我們可以用貝氏再看一下這個問題

\[\frac{P(證人指認為藍色|肇事車真為藍色)P(肇事車真為藍色)}{P(證人指認為藍色)} = \frac{\frac{12}{12+3} * \frac{15}{100}}{ \frac{12+17}{100}} = \frac{12}{12+17}\]

如果 $A,B$ 有順序,我們也可以用這種方式理解貝氏,

\[\begin{aligned} P(A|B) &= P(B|A) &*& P(A) &/& P(B) \\ 預測機率 &= 概似機率 &*& 先驗機率 &/& 條件發生機率 \\ Posterior &= Likelihood &*& Prior &/& Evidence \\ \end{aligned}\]

我們把 $A, B$ 帶入上面的問題, $A =$ 肇事車真為藍色, $B =$ 證人指認為藍色, 因為在城裡面只有藍車 $15$ 輛,綠車 $85$ 輛,我們在還沒開庭前會有個預設概念是藍車的機率是 $0.15$ 這也是被稱為先驗機率, 也可以理解為事發之前的機率,假設城裡開車的每個人出車禍的機率都一樣。

然後證人上法庭,指認肇事的車子是藍色車,這就是證據 (evidence),通常這個機率是常數,你可以想成,大家一看到這個證人,對他的視力與當天夜晚的狀況等等條件得出的綜合概念。

那接下來我們會想問的就是假設 “肇事車真為藍色” 這前題下,證人指認出為藍色的機率是多少,因為證人也可能會認錯,這個機率也被稱為概似機率。

在開庭前我們有一個之前的刻板印象 $P(A)$ 先驗機率,知道證人是誰後,在他的指認下,我們就會產生一個新的機率

\[P(A|B)\]

這也被稱為 後驗機率。 我們也可以參考很多其他的證據,我指的是傳喚很多證人去指證以便得到比較準確的機率。\

我們再舉一個垃圾郵件的例子,當我們收到一封新的信件,原本對於是不是垃圾郵件會有一個既往印象,雖然我常會收到一些沒用的信件,例如阿醜的抱怨信,但我還是很需要去信箱收取重要的信,例如小美的情書, 但是我可以建立一些特別的關鍵字去做篩選,例如信件裡面出現阿醜那有很大概率就是垃圾信,裡面出現小美那很大概率是重要的信,但是也有誤判的可能,例如阿醜在信裡面提到小美很漂亮想做朋友,這明明是阿醜寫的垃圾信,但只是因為信裡面有提到小美就被誤判不是垃圾信了。

如果上面的例子還不能真確感受到貝氏的概念,我再舉一個我們平常生活中會遇到的例子,假設你去買了刮刮樂,我們在購買之前會對中獎機率有一個概念,當看到刮出個謝謝兩個字時,根據你多年豐富的人生經歷你還會繼續刮下去嗎?這就是看到一些證據後的後驗機率,那如果你看到的是恭喜兩個字,你會不會非常開心,當然也可能只是 恭喜發財 再接再厲。