Maximum Likelihood Estimation(MLE)
最大似然估計(MLE)
常常被使用在神經網路學習中,常常損失函式(Loss Function)
會是似然函數,因此,這篇文章讓我們深入了解似然性、似然函數、最大似然估計這些概念吧!
似然函數(Likelihood)
機率用於在已知一些參數的情況下,預測接下來的觀測所得到的結果,而似然性則是用於在已知某些觀測所得到的結果時,對有關事物的性質的參數進行估計
關於什麼是Likelihood
,什麼是Maximum Likelihood Estimation
維基百科寫得非常完整,可以先去複習一下再回來看
但是在關於似然函數
的定義,我會建議參考這篇
雖然函數值
相等,但兩個函數是完全不同的
$L$是對 $\theta $
的函數,$f$是對 $x$
的函數,也可以看成兩種不同的切入角度,$L$是給定觀測結果後,去預測參數$\theta$,$f$則是給定參數$\theta$,去得到結果的機率是多少
假設$f$是機率質量函數
,我們可以寫成
注意,這邊的$\mid$,表示給定$\theta$的意思
所以,舉例來說,在一個公平的投擲硬幣的例子中
前三次結果都是正面,我們記為HHH
\[L(p = 0.5 \mid HHH) = P(HHH \mid p = 0.5) = 0.125\]我們對這個式子可以有兩種解釋
- 在給定結果HHH時,骰子骰到正面機率為0.5的似然性是0.125
- 在給定骰子骰到正面機率為0.5時,得到結果HHH的機率為0.125
所以回到觀點1,從這樣的觀點,當我們得到HHH的結果時
骰子骰到正面機率最有可能會是1
換句話說,這最有可能是一個怎麼骰到骰到正面的骰子
\[L(p = 1 \mid HHH) = P(HHH \mid p = 1) = 1 * 1 * 1 = 1\]注意:似然函數並不被要求滿足歸一性
$L(p = 1 \mid HHH)$等於1,大於$L(p=0.5 \mid HHH)$的0.125
隨機變數(Random Variable)
離散隨機變數(discrete random variable)
\[\textit{若是隨機變數X的取值是有限或可數的}\] \[X = \left \{ x_{1}, x_{2}, x_{3}, ..., x_{n} \right \}\] \[\textit{則稱X為離散隨機變數}\]連續隨機變數(continuous random variable)
\[\textit{若隨機變數X是由全部實數或某一部分區間所組成的話}\] \[X = \{x \mid a <= x <= b \}, -inf < a,b < inf\] \[\textit{則稱X為連續隨機變數}\]機率質量函數(pmf)、機率密度函數(pdf)
關於機率質量函數跟機率密度函數的定義跟性質非常重要,但在這裡不加贅述,詳細參考提供的維基百科連結
機率分布:離散分布與連續分布
關於機率分布主要分為兩種:
離散分布:值域是離散的,例如:擲硬幣,結果有正面與反面
常見的離散分布有:二項分布
連續分布:值域是連續的,例如:人類的身高分布
常見的連續分布有:常態分布
最好可以記一下每種分布所對應到的pmf
或是pdf
最大似然估計(Maximum Likelihood Estimation)
了解了什麼是似然函數(Likelihood Function)
之後
求最大似然(Maximum Likelihood)
也就是在某一機率分布下,最有可能的參數
根據維基百科所舉的例子
可以分為三種組合
- 離散分布,離散有限參數空間
- 離散分布,連續參數空間
- 連續分布,連續參數空間
第一種情況,我們的參數由於離散而且有限
所以我們理論上能試過所有可能的機率,取最大值
第二種情況:離散分布,連續參數空間
我一開始在這邊有點疑問,連續的參數空間,怎麼使得結果是離散分布呢?
舉維基的例子來說,假設我們今天準備了無數個硬幣,每個硬幣擲到正面的機率p分布在0到1,而每個p都有對應到該機率的硬幣,假設今天隨機拿一個硬幣骰了100次,得到正面40次,反面60次的觀測結果
我們記為H=40,T=60,可以求Likelihood
:
所以,接下來我們要求得似然函式L
在0~1之間的最大值
由於L是個連續函數
,我們要求得導函數為零的值,於是
所以可以得出,$p = 0, 1, \frac{40}{100}$
0, 1不可能,因為會使得L為0,所以$p = \frac{40}{100}$時是Maximum Likelihood
由此我們也能歸納出,二項分布的最大似然估計值為
\[MLE = \frac{t}{N}\] \[t \textit{為正面(成功)的次數,} N \textit{為總次數}\]我們再回到剛剛說的連續參數空間,為什麼卻是離散分布的問題
我們上述整個過程都是在對似然函數L
做操作
而似然函數的分布是連續的沒錯,但所謂的離散指的是值域
的離散
這邊的結果只會有正面跟反面,不像身高、智商、體重等等呈現連續分布
第三種情況:連續分布,連續參數空間
舉常態分布為例
我們發現到,控制的參數有兩個$ \mu $, $ \sigma^{2} $
等一下做導函數時,需要分別做偏微分
即可
另外值得一提的是,我們通常會取自然對數再求導函數
因為在似然函數L的值域中(0~1),自然對數是嚴格遞增的上凸函數
所以求似然函數的最大值跟取完自然對數後的最大值是等價的
這邊的計算較繁雜,可以參考維基即可
References
- PRML-Chapter 2
- Wiki
- Saeed-Ghahramani-Fundamentals-of-Probability