More Related Content Similar to A scalable probablistic classifier for language modeling: ACL 2011 読み会 (20) A scalable probablistic classifier for language modeling: ACL 2011 読み会1. ACL2011読み会
坪坂 正志
2011/9/3@サイボウズラボ
2011/9/3 ACL 2011 読み会@サイボウズラボ 1
2. 紹介論文
• Joel Lang : A scalable probablistic classifier for language
modeling. ACL. 2011
– 確率的識別器を使った言語モデルに関する論文
– Kneser-NeyのようなNグラムモデルに比べ、長距離の特徴量
などを利用できる
– 同様に識別器を使った先行研究と違い、語彙数30367、1億
語以上のコーパスに対してもスケールする
2011/9/3 ACL 2011 読み会@サイボウズラボ 2
4. 言語モデル
Happy families are all alike; every unhappy
次に来る単語は?
• 例えばtrigramモデルではP(word | every unhappy)を
計算する
2011/9/3 ACL 2011 読み会@サイボウズラボ 4
5. 言語モデル
Happy families are all alike; every unhappy
次に来る単語は?
• 例えばtrigramモデルではP(word | every unhappy)を
計算する
• でも離れた単語に注目すると、より次の単語の予測
精度が高くなる可能性がある
2011/9/3 ACL 2011 読み会@サイボウズラボ 5
7. どういう特徴量を使うか
• これまでの文脈が ” Yesterday at the press conference
Mr Thompson said”の場合
通常の3-gram
3-gramの一部をスキップ
3個前までの出現単語
4-8個前までの出現単語
2011/9/3 ACL 2011 読み会@サイボウズラボ 7
8. 先行研究
• [Rosenfeld 1996]
– 最大エントロピー分類器を使った言語モデル
– パラメータの推定に非常に時間がかかる
• [Bengio+ 2003]
– ニューラルネットを使った言語モデル
– これも大きなデータセットに適応するのは困難
• [Mnih and Hinton 2008]
– 語彙数20000, 1400万語のデータセットに対して適用
• [Van den Bosch 2005]
– 決定木ベースの手法
– 一億語以上のデータセットに対して適用可能
– 確率モデルではないのでperplexityでの比較が困難
2011/9/3 ACL 2011 読み会@サイボウズラボ 8
9. 先行研究 (論文では触れてない)
• 岡野原, 辻井 : 行列分解による多クラス分類とその
応用. 言語処理学会. 2010
– 単語数5379万、語彙数116万のデータに対して適用
– 確率モデルではないが、ソフトマックス関数を使って確率
値に変換している
2011/9/3 ACL 2011 読み会@サイボウズラボ 9
10. 問題設定
• 与えられた特徴量ベクトル������に対して、クラス分布
������(������|������)を推定する
– ここで一つのクラスは一つの語彙に相当する
– 特徴量ベクトル ������ = (������1 , … , ������������ )
– 特徴量はバイナリを仮定 (������������ ∈ *0,1+)
– 各特徴量は「直前の単語列が”* Thompson said”である」、
「4-8単語前までに”conference”が出現」などを意味する
• ここで特徴量ベクトルの次元は非常に大きいが、ア
クティブな(非ゼロ)なものの数は少ない
– 例えば先程の例では17個
2011/9/3 ACL 2011 読み会@サイボウズラボ 10
11. VMM (Variable mixture model)
• 各������������ ごとに������(������|������������ )を定める
• さらに特徴量ごとに予測の強さ������������ ∈ ������を定める
• このとき������(������|������, ������)を次のようにモデル化する
2011/9/3 ACL 2011 読み会@サイボウズラボ 11
17. 実験
• RCV1データを利用
– 総語彙数 30367 (week 31において頻度4以下の単語はout-of-
vocabulary(UNK)に変換)
– week 50のデータをディベロップメントセット、week 51のデータ
をテストセットとする
– 訓練データとしては4種類のサイズのデータを用意
• D1 (week 1, 3.1M words), D2 (week 1-3, 10M words), D3(week 1-10,
37M words), D4 (week 1-30, 113M words)
2011/9/3 ACL 2011 読み会@サイボウズラボ 17
18. 利用するモデル
• KN : modified Kneser-Ney
• VM-BA (basic) : N-gram特徴量のみを利用
• VM-SR (short range) : BAに加え、skip N-gramとN個
前までの単語をBOFにした特徴量を利用
• VM-LR (long range) : SRに加え、長距離の単語をBOF
にした特徴量を利用
2011/9/3 ACL 2011 読み会@サイボウズラボ 18
19. 実験結果
• 長距離の特徴量を使った
VM-LRのperplexityが最も小
さくなっている
• D4においてVM-LRの学習時
間が30分に対してKNは6分
• D3,D4においてN=5がないの
はメモリ不足のため
2011/9/3 ACL 2011 読み会@サイボウズラボ 19
21. まとめ
• スケーラブルかつ豊富な特徴量を利用できる確率
的分類器のモデルであるVMMを提案した
– 加えて実装は単純
• 言語モデルに適応したところ、Nグラムモデルである
Kneser-Neyよりも高い精度となった
• 今後はメモリの使用量の改善などを行いたい
2011/9/3 ACL 2011 読み会@サイボウズラボ 21
22. 参考文献
• R. Rosenfeld : A maximum entropy approach to adaptive
statistical language modeling. Computer, speech and
language. 1996
• Y. Bengio+ : A neural probabilistic language model.
Journal of Machine Learning Research. 2003
• A. Mnih and G. Hinton : A scalable hierachical distributed
language model. NIPS. 2008
• A. Van den Bosch : Scalable classification-based word
prediction and confusible correction. Traitement
automatique des langues. 2005
• T. Brants+ : Large Language Models in Machine
Translation. EMNLP. 2007
2011/9/3 ACL 2011 読み会@サイボウズラボ 22