Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み会@PCP

KDD2014読み会@PCP
“Mining Topics in Documents:
Standing on the Shoulders of Big Data”
Zhiyuan Chen & Bing Liu (University of Illinois at Chicago)
KDD2014読み会@2014/9/23
住まいカンパニーNB室R&DデータマーケG
Hiroki Takanashi
(takanashi@r.recruit.co.jp / W+54219)
※スライド中の図表、数式は原著論文から引用しました

要旨
• LDAをベースとした教師なしトピック抽出の改良の提案(AMCモデル)
• ドメインの文章数が少ないとき抽出されるトピック品質が下がる問題に対
して、過去のドメインの知識を利用(lifetime learning)
• must-link, cannot-linkの形で、過去の知識を定式化。過去のトピック集合
から自動的に両者を抽出する方法を提案
• 単語の意味に多様性がある場合を考慮してPMIを用いてmust-link,
cannot-linkを扱うことを提案
• 品質の悪いmust-link, cannot-linkが含まれたり、ドメインにそぐわない知
識である場合に対応するGibbs Samplingの手法を提案(M-GPU)
• Topic Coherence指標と、人間による評価で、既存手法(LTM, GK-LDK他)を
超えるトピック抽出の品質を達成

トピック抽出の課題
• LDA, pLSAなどのトピックモデルによる自動トピック抽出は、大きなデータ
セット(ドメイン下の文章集合)が必要
• 現実のデータは１つのトピックに少数の単語しかない
• 少ないデータセットでLDAを適用すると品質の悪いトピックが抽出される
• これまでの改善方法
• ①良いトピックモデルを作る
• 限界がある
• ②利用者の持つドメイン知識を利用する
• 利用者の作業が発生するため、完全な自動化にはならない
• 利用者がドメインに対する知識を持っているとは限らない
• ③人間のように学習する(lifetime learning)
• 過去の学習で得た事前知識を利用する
• 先行研究はLTM (Lifetime learning Topic Modeling)など

Lifetime learning提案の背景
• ドメインが異なってもトピックは共有される
• battery, screenなどは多くの電子機器について出現。priceは商品すべて
• (price, cost)などの語の組み合わせは別のドメインであっても同じトピックに
入ることが観察→must-link
• (price, picture)のように、どのドメインにおいても同じトピックに入らない語の
組み合わせがある→ cannot-link
• 別のドメインに対する過去のトピック抽出で得られたトピック集合(S)
を利用することで、must-linkとcannot-linkを自動的に発見し、それを
新しいドメインにおけるトピック抽出に利用できると仮説

AMCによるLifetime learningの全体像
• Phase-1 (初期化)
• n個の文書コレクションDiの集合Dを用意する( D = {D1 ,D2 , … ,Dn} )
• 各文章コレクションDiについてLDAを適用し、トピック集合Siを得る
• Si の和集合を取り、すべての事前トピック集合Sを作る( S = ∪i {Si })
• Phase-2 (AMCを使った生涯学習)
• 新しい文章コレクションDt に対して、Sから作られたmust-linkの集合Mを用いて、
Gibbs Samplingを適用しDtに対する仮のトピック集合Atを作成する。
• At とSを使って、cannot-linkを発見し、cannot-link集合Cを作成する。
• [繰り返し] M, Cの両方を用いてGibbs SamplingによりAtを更新し、さらに新しく
cannot-linkを発見しCに追加する
• 最終的に得られたAtをSに追加し、Dtに対する学習を終了する

AMCの疑似コード
Phase2 (AMCによる生涯学習)
Incorporate(At , S)は、AtのドメインがすでにSに存在していれば置き換え、
そうでなければ和集合を取り追加する関数

自動抽出された事前知識の活用の課題
• 自動抽出されたmust-link、cannot-linkは間違いを含む。
• このまま、DF-LDAや、MC-LDAに投入すると品質の悪い結果になる
• 単語は複数の意味を持ちうる
• Light(光)、Light(軽い)など
• DF-LDAのように単語A-単語Bのリンクと単語B-単語Cのリンクをそのまま使うとすべ
てのA, B, Cを同じトピックに入れようとするので問題となる
• MC-LDAのように、１つの単語について１つのみのmust-linkを用いる（他はすべて捨
てる）と、事前知識を十分活用できない
• すべての事前知識を使うべきとは限らない
• 特定のドメインで有効なmust-linkが別のドメインでも有効とは限らない
• cannot-linkはmust-linkよりも数が膨大になる
• 過去の事例に「なかっただけ」なので本当に有効なcannot-linkであるかわからない

must-linkの利用方法
• 有用なmust-linkの抽出
• 各トピック集合のトップ15単語のみを利用
• Multiple Minimum Supports Frequent Itemset Mining (MIS-FIM)を使って、単語の２
つ組でmust-linkの事前知識として利用
• multiple-senseへの対応
• 各must-linkの組をノードとするグラフGを作り、同じ単語が含まれるmust-linkノード
をエッジで接続する
• 任意のエッジでつながれたmust-link(m1, m2)について、トピック集合Sのなかで、各
m1, m2の組の共起数をもとに、閾値以下のものは枝刈り
• 不適切な事前知識への対応
• must-linkを構成する、w1, w2について、対象とする文章コレクションDt におおける、
w1, w2 のPoint-wise Mutual Information (PMI)を使ってmust-linkの重みづけを行う

must-linkの利用方法（補）
must-linkグラフGの枝刈り基準
PMIを用いたmust-linkの重みづけ

cannot-linkの利用方法
• 計算量の爆発への対応
• 対象とするドメインDtのトピック候補の集合Atのうち、注目するトピックのAt
jに
含まれる単語の組み合わせw1, w2のみをcannot-linkの候補とする
• 有用なcannot-linkの発掘
• cannot-linkの候補w1, w2の組に対して、過去のドメイン集合において、w1,
w2があるトピックに共起した回数Nshareと、w1, w2がそれぞれ別のトピックに
現れた回数Ndiffの比が閾値未満の場合利用しない: Ndiff /(Ndiff +Nshare) ≧ πc
• 加えて、Ndiffの回数自体が閾値未満の場合利用しない: Ndiff > πc
• 不適切な事前知識への対応
• 誤ったcannot-linkや、ドメインに対して適切ではないcannot-linkが混入しうる
ため、Polya urnモデルを拡張し、Multi-generalized Polya Urn(M-GPU)

Multi-Generalized Polya Urnモデルの提案
• 壺の定義
• UK
: 各文章を壺とし、各壺UK
にはK色のボール(トピックが含まれ
d∈{1,…,Dt} d)る。文章に対するトピック分布に対応。
• UW
k∈{1,…,K} : 各トピックを壺とし、各壺UW
kにはw色のボール（単語）が含まれ
る。w∈{1…V}。トピックに対する単語分布に対応。
• PMIによる重み行列
kに含まれる単語wに対して、must-linkの対となるw, w’の単語の組の重
• UW
みをPMIを用いて以下のように定義

Multi-Generalized Polya Urnモデルのサンプリングプロセス
1. トピックkを壺UK
dから１つサンプリングし、続けて壺UW
kから単語wを１つ
サンプリングする。(dは文章集合Dtのd番目の文章)
2. kとwを記録し、k色のボールを壺UK
dに２個戻し、同時にw色のボールを
壺UW
kに２個戻す。
3. 事前知識からwを含むmust-linkを１つサンプリングし(=m)、m自身と
must-linkグラフG上の全ての隣接ノードm’からなる集合{m’}を作る
4. {m’}に含まれるすべてのmust-link {w, w’}について、w’色のボールをそ
れぞれλw’, w個だけUK
dに戻す
5. wとcannot-linkを共有するすべての単語wcについて以下を行う
a) wc色のボールqcを１つUW
kから取り除く。ここで、qcが含まれていた文章をdcで表
す。もし、UW
k にwc色のボールが１つも含まれない場合、以下のb), c)をスキップ
する。
b) 以下の条件を満たす壺の集合{Uw
k’ }を作る
i. k’ ≠ k
ii. Uw
k’にwc色のボールが含まれる割合は、Uw
kにwc色のボールが含まれる割合より大きい
c) 集合{Uw
k’ }が空でなければ、ランダムに１つの壺Uw
k’を選び、qcをその中に戻す。
同時に、k色のボールを壺UK
dcから１つ取り除き、代わりにk’色のボールを戻す。
もし、{Uw
k’ }が空であれば、qcをUW
kに戻す。

Sampling Distributions
M-GPUモデルの単語の非可換性による計算量の増大を抑えるため、Gibbs Sampling分布を各単語が最
後に取り出されたものと扱うことで近似
must-linkのサンプリング
wiに対してトピックkが紐づけられる条件付き確率zi
α, βはディクリレハイパーパラメータ

Sampling Distributions(2)
トピックziからwc色のボールqcがサンプリングされる条件付き確率
qcについて、k以外のトピックがサンプリングされる条件付確率

実験設定
• Electric Productsと、Non-Electric Productsの各２つのデータセットについて、そ
れぞれ50ドメイン・各ドメイン1000記事のレビューを用意
• LDA, DF-LDA, MC-LDA, GK-LDA, LTMとの比較実験
• DF-LDA, MC-LDA, GK-LDAについては、人が作った事前知識ではなく、提案手法で作られた
must-link, cannot-linkを事前知識として利用
• 各トピックモデルで共通のLDAハイパーパラメータはα=1, β=1, トピック数K = 15
• モデルごとに共通のパラメータは各手法の原著論文に従う
• Topic Coherence指標と、人間による評価の２つで評価実験を実施
E
NE

Topic Coherenceによる評価
• Electric Productsに対するTopic Coherence
• テストする1ドメイン以外の49ドメインを事前知識の学習に用いて、各ドメインに対する
Topic Coherenceの平均を計算
• ACMはmust-link, cannot-linkの両方を使ったもの(ACM)と、must-linkのみをつかった
もの(ACM-M)の両方をテスト
• DF-LDAとMC-LDAは自動生成されたcannot-linkを使うと破綻するため、must-linkのみ
を利用

人間による評価
• Topic Labellingと、Word Labellingの２つを使って、各モデルを評価
• Topic Labellingは、ドメインから得られた15個のトピックについて、各トピックに含まれる単語を
エキスパートが判断して、対象ドメインについて各トピックがCoherentか否かを判断
• Word Labellingは、Coherentだと判断されたトピックのみに対して、各トピックに含まれる単語
をエキスパートが判断し、対象トピックについて各単語がCoherentか否かを判断
• Word Labellingは、Precision@n (p@n)によって、トピックに含まれる上位n件までの単語につ
いて評価
並び順はACM(赤), LTM(青), LDA(緑)

２つのデータセットを利用した学習
• テスト対象とするElectric Productsのデータセットだけでなく、Non-electric
Productsのデータセットも事前知識の学習に利用した場合の性能をテスト
• ALL = (Electric + Non-electricの全て), E = (Electric Productsデータセットの
み), NE = (Non-Electric Producsデータセット), LDA = (比較対象)
• 各ドメインごとのレビュー数を100と1,000でと変えて比較

まとめ＆感想
• まとめ
• 過去の学習をmust-link, cannot-linkの形で自動で抽出し、事前知識として利用するlifetime
learningとしてLDAを拡張した提案
• 単語の意味の多義性、must-link、cannot-linkの品質の問題や、別ドメインへの当てはめや不適
切な事前知識など、各問題を解決するようなトリックを導入
• 既存のLDA拡張における問題であった、矛盾する事前知識や、cannot-linkの活用などを解決し
て性能を向上させている
• 感想
• 提案を構成する各要素の発想は非常に明快で、直観的な納得感もある
• Gibbs SamplingのDistributionの話になってから導出が追い付かなくなった（すみません）
• 各問題を一度に解決するのではなく、細かなトリックを加えて緩和していこうという方向性が非
常にエンジニアリング的で、各アイディアだけでも別の形で実システムへ生かしていけそう
• 一方で、各アイディア(must-linkグラフの枝刈りなど)が、それぞれどれだけ性能向上に寄与して
いるのかが不明瞭なので、各段階での性質を追えるような実装がほしい

Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み会@PCP

Recommandé

Recommandé

Contenu connexe

Similaire à Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み会@PCP

Similaire à Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み会@PCP (8)

Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み会@PCP