SlideShare une entreprise Scribd logo
1  sur  17
Télécharger pour lire hors ligne
「トピックモデルによる統計的潜在意味解析」輪読会
第2章 Latent Dirichlet Allocation
尾崎 遼
15/08/24
内容
この章の目的
統計的潜在意味解析で用いられる統計モデルの一つであるLatent Dirichlet
Allocation (LDA) について直感的な理解を得る
(学習アルゴリズムは3章で扱う)
目標
LDAが文章集合をどのようにモデル化しているか説明できる
LDAの幾何学的な解釈から名前の由来を説明できる
LDAの応用例を挙げることができる
2
準備: 多項分布
確率分布 π に従ってK個の値のいずれかをとる確率変数 x があるとき、
N回の独立な試行でそれぞれの値がでた回数が従う確率分布を多項分布という。
3
k番目の値が出た回数
1回の試行でk番目の値をとる確率
1回の試行の場合は以下のようにかける
N回の独立な試行の結果
準備: Dirichlet分布
Dirichlet分布
単体(座標の総和が1で定義される空間)上の確率分布
4
パラメタ(実数)
期待値
分散
ただし
準備: Dirichlet分布は多項分布の共役事前分布
Dirichlet分布は多項分布の事前分布として用いられる
多項分布のパラメタは単体上の点と解釈できる
多項分布の共役事前分布(conjugate prior)であるから
=多項分布を尤度、Dirichlet分布を事前分布とすると、事後分布の形もDirichlet分布に
なる → 数学的な取り扱いが容易になる
5
事後分布 事前分布尤度
nk+αk をパラメタとするDirichlet分布になる → 頻度 nk が加算されたイメージ
証明は 式(2.7)
文書中の単語の共起関係をどのようにモデル化するか
6
潜在トピック
V種類の単語から成るM個の文書集合
文書
文書 d の i 番目の単語
入力
単語のインデックス
潜在トピックの数 K
文書中の各単語はある潜在トピックから出現すると仮定
→ トピックごとの単語の出現分布として、多項分布を設定
→ さらにこの多項分布のパラメタの事前分布として、ディリクレ分布を設定
各文書に複数のトピックが潜在していると仮定
→ 文書ごとの潜在トピックの出現分布として、多項分布を設定
→ さらにこの多項分布のパラメタの事前分布として、ディリクレ分布を設定
LDAにおける生成過程
7
潜在トピック
V種類の単語から成るM個の文書集合
文書
文書 d の i 番目の単語
入力
出力
文書 d での潜在トピック k の出現確率
文書 d の i 番目の単語が
どの潜在トピックから生成されたかを
示す潜在変数
潜在トピック k での単語 v の出現確率単語のインデックス
潜在トピックの数 K
各文書での潜在トピック出現確率
各トピックでの単語出現確率
各トピックでの単語出現確率
LDAのグラフィカルモデル
8
潜在トピック k での単語 v の出現確率
単語のインデックス(種類)
潜在トピック k での単語の出現分布のパラメタ
文書 d における潜在トピックの出現分布のパラメタ
文書 d の i 番目の単語
wd,i を生成した
潜在トピックを示す潜在変数
文書 d での潜在トピック k の出現確率
φk の超パラメタθd の超パラメタ
潜在トピック
文書
単語
参考: トピックが文書内で共通の場合のグラフィカルモデ
ル
9
潜在トピック k での単語 v の出現確率
単語のインデックス(種類)
潜在トピック k での単語の出現分布のパラメタ
潜在トピックの出現分布のパラメタ
文書 d の i 番目の単語
wd,i を生成した
潜在トピックを示す潜在変数
文書 d での潜在トピック k の出現確率
φk の超パラメタθ の超パラメタ
潜在トピック
文書
単語
LDAの幾何学的解釈: 準備
単体 simplex
d次元空間において各成分の和が 1 になるような部分空間
多項分布のパラメタは単体上の点とみることができる
10
LDAの幾何学的解釈: 文書は単語座標単体上の点と見なせる
単語出現分布は単語座標単体上の点である
単語座標単体: 各単語の確率が1であるベクトルを基底ベクトルとする単体
文書は単語出現分布とみなせる
和が1になるように正規化すれば確率分布になる
よって、文書は単語座標単体上の点と解釈できる
11
単語出現分布は単語座標単体上の点である
潜在トピックは単語出現分布である
よって、潜在トピックは単語座標単体上の点と解釈できる
LDAの幾何学的解釈: 潜在トピックも単語座標単体上の点とみなせる
12
潜在トピック出現分布は潜在トピック座標単体上の点と解釈できる
潜在トピック座標単体: 潜在トピックを基底ベクトルとする単体
LDAでは各文書に潜在トピック出現分布が推定される
よって、文書は潜在トピック座標単体上の点と解釈できる
LDAの幾何学的解釈: 文書は潜在トピック座標単体上の点ともみなせる
13
LDAの幾何学的解釈: まとめ
Latent Dirichlet Allocation の名前の由来
文書を、Dirichlet分布に従って、潜在(latent)トピック座標単体上に配置(allocate)
しているから
14
文書→単語座標単体 潜在トピック→単語座標単体 文書→潜在トピック座標単体
LDAは文書を単語座標単体から潜在トピック座標単体へ射影している
単語座標単体よりも潜在トピック座標単体の方が低次元であるため
次元圧縮と捉えることもできる
LDAの応用 1
単語の予測分布を利用する
単語の予測分布
トピックを介しているので、実際に文章中で現れなかった単語でもよい
応用例: 単語入力予測、言い換えの提案、キーワードによる情報検索、購入履歴
に基づく推薦
15
LDAの応用 2
時系列分析
潜在変数から時間ごとにθk、 φk,v を推定する
応用例: トピックの時系列、バースト、トレンド解析
文書の次元圧縮
単語を潜在変数の値(潜在トピック)と入れ替える
応用例: 分類器の特徴量として利用
単語の潜在的意味
潜在変数の値(潜在トピック)を参照することで、同じ単語でも異なる意味だとわかる
応用例: 語義曖昧性の解決、機械翻訳
16
LDAの応用例: 3
他のデータ
Bag of XXX になればどんなデータにも適用できる
応用例: 画像処理、バイオインフォマティクス、人の行動解析、画像+テキスト
、音楽+歌詞
17

Contenu connexe

Tendances

PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2matsuolab
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)Yoshitake Takebayashi
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半Ohsawa Goodfellow
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介Taku Yoshioka
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)Yasunori Ozaki
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族hiroki yamaoka
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門Shuyo Nakatani
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙Satoshi Hara
 
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldNaoki Hayashi
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習Masahiro Suzuki
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定Akira Masuda
 
マルコフ連鎖モンテカルロ法
マルコフ連鎖モンテカルロ法マルコフ連鎖モンテカルロ法
マルコフ連鎖モンテカルロ法Masafumi Enomoto
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4matsuolab
 

Tendances (20)

PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
 
PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半PRML上巻勉強会 at 東京大学 資料 第1章前半
PRML上巻勉強会 at 東京大学 資料 第1章前半
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
coordinate descent 法について
coordinate descent 法についてcoordinate descent 法について
coordinate descent 法について
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙
 
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-old
 
深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習深層生成モデルを用いたマルチモーダル学習
深層生成モデルを用いたマルチモーダル学習
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
マルコフ連鎖モンテカルロ法
マルコフ連鎖モンテカルロ法マルコフ連鎖モンテカルロ法
マルコフ連鎖モンテカルロ法
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 

En vedette

トピックモデルの話
トピックモデルの話トピックモデルの話
トピックモデルの話kogecoo
 
160817 ISMB2016読み会
160817 ISMB2016読み会160817 ISMB2016読み会
160817 ISMB2016読み会Haruka Ozaki
 
LDA等のトピックモデル
LDA等のトピックモデルLDA等のトピックモデル
LDA等のトピックモデルMathieu Bertin
 
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)Haruka Ozaki
 
トピックモデルによる統計的潜在意味解析 2章後半
トピックモデルによる統計的潜在意味解析 2章後半トピックモデルによる統計的潜在意味解析 2章後半
トピックモデルによる統計的潜在意味解析 2章後半Shinya Akiba
 
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半koba cky
 
LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類Kouhei Nakaji
 
「トピックモデルによる統計的潜在意味解析」読書会 4章前半
「トピックモデルによる統計的潜在意味解析」読書会 4章前半「トピックモデルによる統計的潜在意味解析」読書会 4章前半
「トピックモデルによる統計的潜在意味解析」読書会 4章前半koba cky
 
Twitterテキストのトピック分析
Twitterテキストのトピック分析Twitterテキストのトピック分析
Twitterテキストのトピック分析Nobuyuki Kawagashira
 
トピックモデル(LDA)によるセグメンテーション
トピックモデル(LDA)によるセグメンテーショントピックモデル(LDA)によるセグメンテーション
トピックモデル(LDA)によるセグメンテーションbusinessanalytics
 
Excelによる遺伝子名の誤変換 -傾向と対策-
Excelによる遺伝子名の誤変換 -傾向と対策-Excelによる遺伝子名の誤変換 -傾向と対策-
Excelによる遺伝子名の誤変換 -傾向と対策-Haruka Ozaki
 
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomesISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomesHaruka Ozaki
 
Rで塩基配列を扱う方法
Rで塩基配列を扱う方法Rで塩基配列を扱う方法
Rで塩基配列を扱う方法Haruka Ozaki
 
距離まとめられませんでした
距離まとめられませんでした距離まとめられませんでした
距離まとめられませんでしたHaruka Ozaki
 
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)Takao Yamanaka
 
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと 12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと Haruka Ozaki
 
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Haruka Ozaki
 

En vedette (20)

トピックモデルの話
トピックモデルの話トピックモデルの話
トピックモデルの話
 
160817 ISMB2016読み会
160817 ISMB2016読み会160817 ISMB2016読み会
160817 ISMB2016読み会
 
LDA等のトピックモデル
LDA等のトピックモデルLDA等のトピックモデル
LDA等のトピックモデル
 
LDA入門
LDA入門LDA入門
LDA入門
 
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
Rでゲノム上の区間データを扱う話 (15.09.05 WACODE 2nd)
 
トピックモデルによる統計的潜在意味解析 2章後半
トピックモデルによる統計的潜在意味解析 2章後半トピックモデルによる統計的潜在意味解析 2章後半
トピックモデルによる統計的潜在意味解析 2章後半
 
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半「トピックモデルによる統計的潜在意味解析」読書会 2章前半
「トピックモデルによる統計的潜在意味解析」読書会 2章前半
 
LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類
 
「トピックモデルによる統計的潜在意味解析」読書会 4章前半
「トピックモデルによる統計的潜在意味解析」読書会 4章前半「トピックモデルによる統計的潜在意味解析」読書会 4章前半
「トピックモデルによる統計的潜在意味解析」読書会 4章前半
 
Twitterテキストのトピック分析
Twitterテキストのトピック分析Twitterテキストのトピック分析
Twitterテキストのトピック分析
 
トピックモデル(LDA)によるセグメンテーション
トピックモデル(LDA)によるセグメンテーショントピックモデル(LDA)によるセグメンテーション
トピックモデル(LDA)によるセグメンテーション
 
Pfi last seminar
Pfi last seminarPfi last seminar
Pfi last seminar
 
Excelによる遺伝子名の誤変換 -傾向と対策-
Excelによる遺伝子名の誤変換 -傾向と対策-Excelによる遺伝子名の誤変換 -傾向と対策-
Excelによる遺伝子名の誤変換 -傾向と対策-
 
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomesISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
ISMB2014読み会 Ragout—a reference-assisted assembly tool for bacterial genomes
 
Rで塩基配列を扱う方法
Rで塩基配列を扱う方法Rで塩基配列を扱う方法
Rで塩基配列を扱う方法
 
距離まとめられませんでした
距離まとめられませんでした距離まとめられませんでした
距離まとめられませんでした
 
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)高速な物体候補領域提案手法 (Fast Object Proposal Methods)
高速な物体候補領域提案手法 (Fast Object Proposal Methods)
 
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと 12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
12-11-30 Kashiwa.R #5 初めてのR Rを始める前に知っておきたい10のこと
 
Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析Kashiwa.R#9 Rでゲノム解析
Kashiwa.R#9 Rでゲノム解析
 
20150625 cloudera
20150625 cloudera20150625 cloudera
20150625 cloudera
 

トピックモデル勉強会: 第2章 Latent Dirichlet Allocation