Maximum Likelihood Estimation(MLE)

1 May 2018

math Probability MLE Distribution Likelihood

最大似然估計(MLE)常常被使用在神經網路學習中，常常損失函式(Loss Function)會是似然函數，因此，這篇文章讓我們深入了解似然性、似然函數、最大似然估計這些概念吧!

似然函數(Likelihood)

機率用於在已知一些參數的情況下，預測接下來的觀測所得到的結果，而似然性則是用於在已知某些觀測所得到的結果時，對有關事物的性質的參數進行估計

關於什麼是Likelihood，什麼是Maximum Likelihood Estimation

維基百科寫得非常完整，可以先去複習一下再回來看

但是在關於似然函數的定義，我會建議參考這篇

\[L( \theta \mid x) = f(x \mid \theta)\] \[x \textit{是聯合樣本隨機變量} X \textit{取到的值，} X = x\] \[\theta \textit{是未知參數}\] \[f \textit{是一個密度函數，給定參數} \theta \textit{下關於聯合樣本值} x \textit{的聯合密度函數}\]

雖然函數值相等，但兩個函數是完全不同的

$L$是對 $\theta $的函數，$f$是對 $x$的函數，也可以看成兩種不同的切入角度，$L$是給定觀測結果後，去預測參數$\theta$，$f$則是給定參數$\theta$，去得到結果的機率是多少

假設$f$是機率質量函數，我們可以寫成

\[L( \theta \mid x) = P(X = x \mid \theta)\]

注意，這邊的$\mid$，表示給定$\theta$的意思

所以，舉例來說，在一個公平的投擲硬幣的例子中

前三次結果都是正面，我們記為HHH

\[L(p = 0.5 \mid HHH) = P(HHH \mid p = 0.5) = 0.125\]

我們對這個式子可以有兩種解釋

在給定結果HHH時，骰子骰到正面機率為0.5的似然性是0.125
在給定骰子骰到正面機率為0.5時，得到結果HHH的機率為0.125

所以回到觀點1，從這樣的觀點，當我們得到HHH的結果時

骰子骰到正面機率最有可能會是1

換句話說，這最有可能是一個怎麼骰到骰到正面的骰子

\[L(p = 1 \mid HHH) = P(HHH \mid p = 1) = 1 * 1 * 1 = 1\]

注意：似然函數並不被要求滿足歸一性

$L(p = 1 \mid HHH)$等於1，大於$L(p=0.5 \mid HHH)$的0.125

隨機變數(Random Variable)

離散隨機變數(discrete random variable)

\[\textit{若是隨機變數X的取值是有限或可數的}\] \[X = \left \{ x_{1}, x_{2}, x_{3}, ..., x_{n} \right \}\] \[\textit{則稱Ｘ為離散隨機變數}\]

連續隨機變數(continuous random variable)

\[\textit{若隨機變數Ｘ是由全部實數或某一部分區間所組成的話}\] \[X = \{x \mid a <= x <= b \}, -inf < a,b < inf\] \[\textit{則稱Ｘ為連續隨機變數}\]

機率質量函數(pmf)、機率密度函數(pdf)

關於機率質量函數跟機率密度函數的定義跟性質非常重要，但在這裡不加贅述，詳細參考提供的維基百科連結

機率分布：離散分布與連續分布

關於機率分布主要分為兩種：

離散分布：值域是離散的，例如：擲硬幣，結果有正面與反面

常見的離散分布有：二項分布

連續分布：值域是連續的，例如：人類的身高分布

常見的連續分布有：常態分布

最好可以記一下每種分布所對應到的pmf或是pdf

最大似然估計(Maximum Likelihood Estimation)

了解了什麼是似然函數(Likelihood Function)之後

求最大似然(Maximum Likelihood)

也就是在某一機率分布下，最有可能的參數

根據維基百科所舉的例子

可以分為三種組合

離散分布，離散有限參數空間
離散分布，連續參數空間
連續分布，連續參數空間

第一種情況，我們的參數由於離散而且有限

所以我們理論上能試過所有可能的機率，取最大值

第二種情況：離散分布，連續參數空間

我一開始在這邊有點疑問，連續的參數空間，怎麼使得結果是離散分布呢？

舉維基的例子來說，假設我們今天準備了無數個硬幣，每個硬幣擲到正面的機率p分布在0到1，而每個p都有對應到該機率的硬幣，假設今天隨機拿一個硬幣骰了100次，得到正面40次，反面60次的觀測結果

我們記為H=40，T=60，可以求Likelihood：

\[L(θ \mid H=40,T=60) = P(H=40,T=60 \mid p) = C(100,40) * p^{40} * (1-p)^{60} \textit{(二項分布)}\]

所以，接下來我們要求得似然函式L在0~1之間的最大值

由於L是個連續函數，我們要求得導函數為零的值，於是

\[C(100,40) \times (40 \times p^{39} \times (1-p)^{60} - 60 \times p^{40} \times (1-p)^{59}) = 0\] \[p^{39} \times (1-p)^{59} \times ( 40 \times (1-p) - 60 \times p) = 0\] \[p^{39} \times (1-p)^{59} \times (-100p + 40) = 0\]

所以可以得出，$p = 0, 1, \frac{40}{100}$

0, 1不可能，因為會使得L為0，所以$p = \frac{40}{100}$時是Maximum Likelihood

由此我們也能歸納出，二項分布的最大似然估計值為

\[MLE = \frac{t}{N}\] \[t \textit{為正面（成功）的次數，} N \textit{為總次數}\]

我們再回到剛剛說的連續參數空間，為什麼卻是離散分布的問題

我們上述整個過程都是在對似然函數L做操作

而似然函數的分布是連續的沒錯，但所謂的離散指的是值域的離散

這邊的結果只會有正面跟反面，不像身高、智商、體重等等呈現連續分布

第三種情況：連續分布，連續參數空間

舉常態分布為例

我們發現到，控制的參數有兩個$ \mu $, $ \sigma^{2} $

等一下做導函數時，需要分別做偏微分即可

另外值得一提的是，我們通常會取自然對數再求導函數

因為在似然函數L的值域中(0~1)，自然對數是嚴格遞增的上凸函數

所以求似然函數的最大值跟取完自然對數後的最大值是等價的

這邊的計算較繁雜，可以參考維基即可

References

PRML-Chapter 2
Wiki
Saeed-Ghahramani-Fundamentals-of-Probability