利用直播評論分析影片內容

21 July 2019
cs biterm-LDA

在日本交換留學的這一年,我們必須完成一個研究,也就是YFR Research,雖然沒有限制說應該怎麼做,像是一定要有成品,或者要寫成一篇論文之類的

我所加入的lab是Okumura-Takamura NLP LabNLP的中文是自然語言處理,而我訂的主題是利用留言,找出直播中的主題,但是乍看之下很簡單的一句話,其實有很多困難存在,而這也算是我第一次做研究

研究簡介


如上述所言,我的研究主題是對留言進行分析,也就是對短文本做主題模型或者關鍵字提取

對於像留言(comments)這種型態的資料,具有跟一般的長文本資料,或者短文本(e.g. Tweet)不同的性質

  1. 非常短(extremely short)
  2. 語法結構不嚴謹(without strict syntax structure)
  3. 用語較為通俗(casual form)
  4. 與主題無關的留言(comments not related to the topic)

接下來,我想要更詳細的說明我的研究

我想要處理的資料型態是帶時間資訊的留言,所以最直接的應用是直播影片的留言,如此一來,能夠讓直播主(host)能夠即時掌握留言區的主題,也或者是,在一個討論串中,例如:歷時兩天的討論串,關於這個討論串的主題的變化、走向

那我想要的結果是,給定一個區間的留言,我能判斷出這個區間的主題或關鍵字是什麼。找主題的話,那麼第一個想到就是套用主題模型(Topic Model),找關鍵字的話,就得考慮一些關鍵字(Keyword Extraction)的方法像是Text Rank

主題模型(Topic Model)


主題模型是在2003年由Blei等人提出的,當時是用來抽取期刊的主題,用於長文本上

要了解主題模型牽扯到了很多數學的知識,機率、貝斯定理、先驗共軛、文本抽樣、吉普斯採樣等等

我們用簡單的敘述來描述這整個過程

我們要去模擬文本被產生的過程,LDA假設每篇文章會有一個主題分佈,而每個文字的產生,都是從這個主題分佈中抽取一個主題,然後再從這個主題的文字分佈抽取文字,依照這樣的過程產生一篇文章

Biterm Topic Model


說到使用LDA主題模型,我們發現LDA Topic Model並不適合使用於短文本

因為在Gibbs Sampling時,我們一開始隨機賦予每個字一個主題,然後不斷取樣直到收斂

在LDA中,我們假設每個文件都有一個主題分布,然後每個字都有一個主題

所以,我們最後取樣出來的結果應該是會符合這個主題分布的

但是,在短文本中,文章過短(假設只有50個字),那我們取樣出來的分布就很難符合主題分布

我們說,在這個過程中喪失了word co-occurence的關係

因此,就有人想出了mixture of unigrams的方法

假設全部的文章都是同一個主題分布,而每個文章只有一個主題(對照LDA是每個字有一個主題)

這樣的假設克服了短文本稀疏性的問題(text sparsity),因為是所有corpus裡面的字來完成這個主題分布

但這樣的假設卻不太符合實際,就算是短文本(ex. Tweet),文章中也可能有多種主題

所以在較長的文本中mixture of unigrams的表現會比較差

Biterm Topic Model則巧妙的同時解決這兩件問題

首先讓我們先定義什麼是Biterm,也就是文章中單詞兩兩的組合,舉例來說

Tokyo Tech in Tokyo

在這裡,我們就有$C_{2}^{4}$種組合(ex. Tokyo Tech, Tech in, Tech Tokyo, …),而它們構成了Biterm Set

註:在這邊應該要先去掉stop words

再來,我們模擬一個Biterm的生成過程,整個corpus只有一個主題分布,每次生成一個Biterm時,從主題分布中取一個主題

然後對這個主題的詞項分布取兩個字$W_{i}, W_{j}$

這麼一來,一個短文本中,還是可能有多種不同主題,而且同時保留了詞跟詞之間的co-occurence的關係

不過,使用Biterm Topic Model的同時有另一個假設:一個文本的主題分布,會等於Biterm的主題分布

實驗


使用Apple2017發表會於Facebook上的直播留言分析

我們使用Facebook的直播留言來進行分析,可以看出在介紹face_id的區段可以抓出類似的關鍵字

未來方向


網路時代影片內容以及直播已成為資訊傳播的主要管道,如何從冗長的影片中快速抓取資訊,如果能夠提供影片各時間的簡要概述,可以大量節省觀影者的時間,利用評論是一個即時且簡單的做法,且對比利用影像辨識更能針對一些像是談話行內容正確貼標,也能從評論的一些行為分析出該影片該時段的更多資訊

有用資料


  1. 對於DTM(Dynamic Topic Model)的程式撰寫有幫助
  2. Topic Model的發展史