PCA - 主成分分析(Principal Component Analysis)

20 July 2019
nlp math PCA eigen-vector eigen-value data-visualization

PCA是一個非常有名的降維方法,我認為通過降維我們可以得到很多好處

  1. 資料視覺化: 在視覺化的時候通常是投影到二維的平面或三維的空間,所以需要降維投影
  2. 提取特徵: 將維度高轉到維度低本身就是一個資訊壓縮的過程,所以我們可以期待有跟像CNN提取特徵的效果
  3. 加快速度: 資料的維度會大大影響模型的運算速度

但是降維的過程免不了損失資訊量,PCA即是以損失最小Variance的想法,所以損失的全局資料量應是最少的

此外,PCA原理簡單、且計算速度很快,我們只需要求共變異數矩陣的特徵向量(eigen vector)特徵值(eigen value)就能算出投影軸

那就讓我們來看看PCA是怎麼運作的吧!


Dirichlet Distribution

3 June 2018
math Probability Dirichlet-Distribution LDA

LDA Topic Model中,用到了一些機率分布,像是Multinomial Distribution, Beta Distribution, Dirichlet Distribution,不過對於這些分布並沒有一個完整的了解,我們參考PRML這本書並在這篇文章整理複習一下吧!


Maximum Likelihood Estimation(MLE)

1 May 2018
math Probability MLE Distribution Likelihood

最大似然估計(MLE)常常被使用在神經網路學習中,常常損失函式(Loss Function)會是似然函數,因此,這篇文章讓我們深入了解似然性、似然函數、最大似然估計這些概念吧!