使用MapReduce進行LSH

11 June 2017
cs LSH shingling minhashing

巨量資料的期末作業我們想使用LSH來分析相似文章,可用來判斷是否抄襲,或者推薦相似內容的文章


Github Page製作

1 January 2018
cs jekyll front-end

使用github提供的github page,結合jekyll簡單製作出具個人風格的網頁。在這個專案中,主要熟悉jekyll的工作模式,可以設定好固定的版型後,直接套用在多個頁面上,也能有類似物件導向的class功能,能夠直接繼承版型,在該版型基礎上增減東西,除此之外,也讓我練習到版面設計及配色,以及網頁動畫等功能


利用直播評論分析影片內容

21 July 2019
cs biterm-LDA

在日本交換留學的這一年,我們必須完成一個研究,也就是YFR Research,雖然沒有限制說應該怎麼做,像是一定要有成品,或者要寫成一篇論文之類的

我所加入的lab是Okumura-Takamura NLP LabNLP的中文是自然語言處理,而我訂的主題是利用留言,找出直播中的主題,但是乍看之下很簡單的一句話,其實有很多困難存在,而這也算是我第一次做研究


法律文件自動補全

1 November 2019
cs autocomplete flask

介紹


法律黑客松獲得第二名的朋友團隊,邀請我幫忙將構想寫成成品,剛好也是一個製作side project的機會

發想自寫程式時常常使用的IDE環境,當輸入程式碼的開頭時,會顯示出推薦的選項,以及可能用法,在撰寫法律文件上,也是常常有固定的法學名詞、法條等,可進行推薦,以及可以提供寫作時,即時提供有用的法條或判例內容參考,未來加入更多有用的功能以提供能輔助撰寫法律文件


Python繪製樹狀結構小套件

13 February 2020
cs tree python

Me
├── Classification
│   ├── TextCNN
│   ├── Bayes Classifier
│   ├── SVM
│   └── BERT classifier
├── NER
│   ├── Bi-LSTM
│   ├── Bi-LSTM + CRF
│   └── BERT + Bi-LSTM + CRF
├── Coherence Resolution
│   └── Pointer Generator Network
├── Sentence Similarity
│   ├── Siamese Netowrk
│   ├── BERT + Siamese Network
│   └── Average Word Vector
├── Information Restoration
│   └── Pick and Combine Model(BERT + PGN)
└── Comprehension
    └── BERT


Naive Bayes Classifier

18 February 2020
cs bayes language-model unsupervised-learning

常常我們會使用複雜的神經網路來訓練模型進行像分類的動作,不過使用監督式(supervised)學習的方法,我們必須有標註過後的資料才能訓練,這篇文章我們介紹,如何在不使用標註資料,而是像網路隨處可搜集到的語料,像是PTT來完成主題分類關鍵字預測發現新詞等功能