以下多機率公式,會看得眼花撩亂,請確保自己清醒後再來看。
如果公式位置錯亂或是沒有顯示,就多重新整理幾次。

前情提要

貝式分類器,擁有幾項特點:

  1. 基於機率型分類(probabilistic classification
  2. 使用貝氏定理來做計算。
  3. 假設特徵之間事件獨立(independence)。
  4. 最常用於文件自動分類的應用上。

所建立出來簡單且有效的分類演算法,以下我們一樣使用新聞分類來作為演算法範例,主要目標為將新聞依照內容描述來自動分類為汽車(C)運動(S)科技(T)


演算法思路

貝氏定理

一切都從條件機率開始說起,我們說B事件發生的條件下發生A事件的機率公式如下:

現在把「B事件發生的條件下發生A事件的機率」和「A事件發生的條件下發生B事件的機率」公式寫在一起,然後做個公式位移:

把 (1) 和 (2) 公式調整一下

最後把P(B ∩ A)帶入置換我們一開始說的P(A|B)公式,就可以導出貝氏定理:

這個公式也可解讀成下列意思:

  • prior probability: 先驗機率,P(A)是在觀察特徵或證據「前」,不考慮任何事件B的因素,能表達事件A的機率分佈。
  • posterior probability: 後驗機率,P(A|B)是在觀察特徵或證據「後」,所得到的條件機率。

貝氏分類

回歸到貝氏分類,我們該如何應用貝氏定理還幫我們執行分類的工作呢??
我們剛剛提的「後驗機率」可以解釋成

給定一些觀察特徵值,我們能計算事物是屬於某個分類的機率。

上述的觀察特徵值我們可以把表示成一個向量,對於新聞分類這問題,我們可以把特徵關鍵字字詞頻率表示成向量:

如果你對於「特徵關鍵字字詞頻率」陌生,可以參考我寫的KNN分類演算法裡面的「前置作業」篇幅。

我們現在的問題是要把新聞自動分類,那麼「後驗機率」就可以說成

給定一些特徵關鍵字字詞頻率向量,我們能計算這篇新聞是屬於某個分類的機率。

寫成貝氏定理的公式就是

換成實際的例子就是

中文解釋就是

在出現「賓士, 寶馬, 籃球, 路跑, 手機, App」這些特徵關鍵字的情況下,該篇新聞是屬於「汽車」的機率是多少?

會等於

在「汽車」新聞當中出現「賓士, 寶馬, 籃球, 路跑, 手機, App」字詞的機率 x 
「汽車」新聞的機率 / 「賓士, 寶馬, 籃球, 路跑, 手機, App」字詞的機率。

上面字過長,滑鼠往右拉。

訓練階段

貝氏分類器的訓練階段是計算

這個算式的數值就要從訓練集合而來,我們要準備各個分類(汽車、運動、科技)的數篇新聞集合,然後做切字並且比對計算特徵關鍵字字詞頻率向量。

新聞 分類 賓士 寶馬 籃球 路跑 手機 App
C63發表會 P 15 25 0 5 8 3
BMW i8 P 35 40 1 3 3 2
林書豪 S 5 0 35 50 0 0
湖人隊 S 1 5 32 15 0 0
Android 5.0 T 10 5 7 0 2 30
iPhone6 T 5 5 5 15 8 32

這邊我已經沒有寫P(特徵關鍵字字詞頻率向量),因為比較不同分類之間的後驗機率時,分母P(特徵關鍵字字詞頻率向量)總是常數,因此可以忽略

獨立事件

實際上,即便有了各分類的新聞集合,我們也很難計算P(特徵關鍵字字詞頻率向量|分類),也就是很難計算

所以要引進貝氏分類最重要的「獨立事件」假設,所謂獨立事件就是一個事件A的結果不會影響另一個事件B發生的機率,舉個例子,給予兩個公正的硬幣,投擲硬幣兩次,那麼第一次投擲的結果不影響第二次投擲的機率。 兩個獨立事件發生的機率就會變成兩個事件機率的乘積。

回到我們的P(特徵關鍵字字詞頻率向量|分類),我們 假設每個分類下的各個特徵關鍵字出現的機率彼此獨立,所以公式可以寫成:

字詞分佈模式

這邊我們有兩個字詞分佈模式,分別為:

  • Bernouli: 只判斷字詞是否有出現,就出現就是1,沒有出現就是0。
    • P(分類) = 該分類新聞篇數 / 所有訓練集合新聞篇數
    • P(特徵關鍵字|分類) = (該分類下包含特徵關鍵字的新聞篇數 + 1) / (該分類下包含特徵關鍵字的新聞篇數 + 2)
  • Multinomial: 直接採用字詞出現頻率。
    • P(分類) = 該分類下字詞頻率總和 / 所有訓練集合字詞頻率總和
    • P(特徵關鍵字|分類) = (該分類下、該關鍵字字詞頻率總和 + 1) / (該分類下所有關鍵字字詞頻率總和 + 訓練集合關鍵字個數)

以下我們都採用Multimonimal來計算。

這邊有一個議題可以探討:不同的字詞分佈模式是否會影響我們最後分類的準度呢??


計算步驟

我們開始先訓練分類器,這邊只用「汽車」分類當作例子,其他分類計算方式類似,各個特徵關鍵字的分類機率如下

訓練階段完成,這些數值等等會使用到。
現在有一篇新的新聞,其特徵關鍵字字詞頻率

地點 分類 賓士 寶馬 籃球 路跑 手機 App
騎士隊 ? 10 2 50 56 8 5

我們要計算該篇新聞屬於「汽車」的機率

這些乘積出來的結果就是這篇新的新聞屬於「汽車」的機率。

向下溢位

如果把這個公式的數值給電腦算,應該有99.99999...%的機率算不出來,為何??因為機率小於1,越小的數字會越乘越小,這樣乘下去電腦就產生「向下溢位」的問題,這邊我們要修改一下機率的計算公式,我們把公式兩邊都取 log,指數就變成相乘,原本相乘就變成相加,算出來的就是機率的log值。

注意,這邊我們重點在於比較各分類的機率 大小關係,而非數值本身,所以所有分類機率數值都取log一樣可以比較所屬分類。


結論

  • 貝氏分類對於少量的訓練集合一樣會有不錯的分類準度,它的威力恰好在於小樣本下,專家意見或歷史經驗,也就是所謂的先驗分配,能夠補足小樣本的不足,使得推論能夠進行。
  • 適合用在資料會不斷成長的應用。

其他參考資訊

http://sebastianraschka.com/Articles/2014_naive_bayes_1.html
http://cn.soulmachine.me/blog/20100528/
http://blog.yhathq.com/posts/naive-bayes-in-python.html
http://scikit-learn.org/stable/modules/naive_bayes.html
http://machinelearningmastery.com/better-naive-bayes/

Comments

comments powered by Disqus