利用直播評論分析影片內容
在日本交換留學的這一年,我們必須完成一個研究,也就是YFR Research
,雖然沒有限制說應該怎麼做,像是一定要有成品,或者要寫成一篇論文之類的
我所加入的lab是Okumura-Takamura NLP Lab
,NLP
的中文是自然語言處理,而我訂的主題是利用留言,找出直播中的主題
,但是乍看之下很簡單的一句話,其實有很多困難存在,而這也算是我第一次做研究
研究簡介
如上述所言,我的研究主題是對留言進行分析,也就是對短文本做主題模型
或者關鍵字提取
對於像留言(comments)這種型態的資料,具有跟一般的長文本資料,或者短文本(e.g. Tweet)不同的性質
- 非常短(extremely short)
- 語法結構不嚴謹(without strict syntax structure)
- 用語較為通俗(casual form)
- 與主題無關的留言(comments not related to the topic)
接下來,我想要更詳細的說明我的研究
我想要處理的資料型態是帶時間資訊的留言
,所以最直接的應用是直播影片的留言,如此一來,能夠讓直播主(host)能夠即時掌握留言區的主題,也或者是,在一個討論串中,例如:歷時兩天的討論串,關於這個討論串的主題的變化、走向
那我想要的結果是,給定一個區間的留言,我能判斷出這個區間的主題或關鍵字是什麼。找主題的話,那麼第一個想到就是套用主題模型(Topic Model),找關鍵字的話,就得考慮一些關鍵字(Keyword Extraction)的方法像是Text Rank
等
主題模型(Topic Model)
主題模型是在2003年由Blei等人提出的,當時是用來抽取期刊的主題,用於長文本上
要了解主題模型牽扯到了很多數學的知識,機率、貝斯定理、先驗共軛、文本抽樣、吉普斯採樣等等
我們用簡單的敘述來描述這整個過程
我們要去模擬文本被產生的過程
,LDA假設每篇文章會有一個主題分佈,而每個文字的產生,都是從這個主題分佈中抽取一個主題,然後再從這個主題的文字分佈抽取文字,依照這樣的過程產生一篇文章
Biterm Topic Model
說到使用LDA主題模型,我們發現LDA Topic Model並不適合使用於短文本
因為在Gibbs Sampling時,我們一開始隨機賦予每個字一個主題,然後不斷取樣直到收斂
在LDA中,我們假設每個文件都有一個主題分布,然後每個字都有一個主題
所以,我們最後取樣出來的結果應該是會符合這個主題分布的
但是,在短文本中,文章過短(假設只有50個字),那我們取樣出來的分布就很難符合主題分布
我們說,在這個過程中喪失了word co-occurence
的關係
因此,就有人想出了mixture of unigrams
的方法
假設全部的文章都是同一個主題分布,而每個文章只有一個主題(對照LDA是每個字有一個主題)
這樣的假設克服了短文本稀疏性的問題(text sparsity),因為是所有corpus裡面的字來完成這個主題分布
但這樣的假設卻不太符合實際,就算是短文本(ex. Tweet),文章中也可能有多種主題
所以在較長的文本中mixture of unigrams
的表現會比較差
而Biterm Topic Model
則巧妙的同時解決這兩件問題
首先讓我們先定義什麼是Biterm
,也就是文章中單詞兩兩的組合,舉例來說
Tokyo Tech in Tokyo
在這裡,我們就有$C_{2}^{4}$種組合(ex. Tokyo Tech, Tech in, Tech Tokyo, …),而它們構成了Biterm Set
註:在這邊應該要先去掉stop words
再來,我們模擬一個Biterm
的生成過程,整個corpus只有一個主題分布,每次生成一個Biterm時,從主題分布中取一個主題
然後對這個主題的詞項分布取兩個字$W_{i}, W_{j}$
這麼一來,一個短文本中,還是可能有多種不同主題,而且同時保留了詞跟詞之間的co-occurence
的關係
不過,使用Biterm Topic Model
的同時有另一個假設:一個文本的主題分布,會等於Biterm
的主題分布
實驗
我們使用Facebook
的直播留言來進行分析,可以看出在介紹face_id
的區段可以抓出類似的關鍵字
未來方向
網路時代影片內容以及直播已成為資訊傳播的主要管道,如何從冗長的影片中快速抓取資訊,如果能夠提供影片各時間的簡要概述,可以大量節省觀影者的時間,利用評論是一個即時且簡單的做法,且對比利用影像辨識更能針對一些像是談話行內容正確貼標,也能從評論的一些行為分析出該影片該時段的更多資訊