SlideShare une entreprise Scribd logo
1  sur  26
Télécharger pour lire hors ligne
Language	
  Models	
  as	
  
                  Representa1ons	
  for	
  	
  
               Weakly-­‐Supervised	
  NLP	
  Tasks	
               Fei	
  Huang,	
  Alexander	
  Yates,	
  Arun	
  Ahuja	
  
                            and	
  Doug	
  Downey	
  
                                   CoNLL2011	
  
                                 紹介者	
  :	
  松田	

2011/12/13	
                                                               1
Introduc1on	
•  NLPのタスクの多くは分類問題に帰着できる	
  
•  分類に用いる素性ベクトルの作り方に性能が大
   きく依存する	
  
      –  人手で注意深くつくられた素性が強い	
  
•  しかし、(特にDomain	
  Adapta1onのような状況に
   おいて)次のような問題が性能を制限している	
  
      –  	
  スパース性	
  
               •  訓練データに出てきていない語に対応する能力	
  
      –  多義性	
  
               •  ドメインに依存して語義の分布がかわる(POSの分布もかわ
                  る)ような語に対応する能力	
  


2011/12/13	
                                     2
Introduc1on	
•  この問題に対処するために、素性表現に着目	
  
      –  unseen	
  exampleに対する汎化性能を上げるような素性表現	
  
      –  distribu1onal	
  hypothesis	
  :	
  意味の似た語はコンテキストも似て
         いる	
  
•  研究のゴール	
  
      –  コンテキストを考慮した確率的言語モデルに基づく素性表現を
         開発	
  
      –  素性表現:語(token	
  /	
  type)から実数値ベクトルへのマッピング	
  
               •  言語モデルから生成	
  →	
  コンテキストを考慮したベクトルを生成できる	
  
               •  コンテキストから生成	
  →	
  多義性やスパース性に対して頑健になる	
  




2011/12/13	
                                                    3
Previous	
  Work	
•  素性表現についての研究は主に四つに分類される	
  
      1.        文書レベルでの共起指標に基づくVector	
  Space	
  Model	
  
      2.        Vector	
  Space	
  Modelに対する次元削減	
  
      3.        分布類似度に基づくクラスタリング	
  
      4.        言語モデルに基づく素性表現	
  
               •    PL-­‐MRFという新しいrepresenta1onを提案し、 POS	
  Taggerにお
                    いてstate-­‐of-­‐the-­‐artな性能を達成したところがcontribu1on	
  
•       Domain	
  Adapta1onの研究としては	
  
      –  targetドメインのラベルつきデータがある設定	
  
      –  targetドメインのラベルつきデータが無い設定	
  
      –  本研究は後者	
  

2011/12/13	
                                                              4
Representa1ons	
•  A	
  representa1on	
  is	
  a	
  set	
  of	
  features	
  that	
  
   describe	
  instances	
  for	
  a	
  classifier	
  
•  形式的な定義	
  

      –  事例集合から素性空間への写像を行う関数	
  

      –  R(x)	
  :	
  Yという素性空間(	
  such	
  as	
  Rd	
  )	
  の中の一つの
         ベクトル	
  

2011/12/13	
                                                            5
Representa1ons(具体例)	

                                               伝統的な素性表現	



                                               trigram言語モデル	


                                               グラフィカルモデル	



                                               クラスタリングに	
  
                                               基づく表現	


                                               提案手法	


*-­‐TOKEN-­‐R	
  :	
  ある語の”特定の”出現事例に対する素性表現(Viterbi等でデコードした値)	
  
*-­‐TYPE-­‐R	
  :	
  語それ自体に対する素性表現(コーパス中で一定)	
  2011/12/13	
                                              6
フレームワーク	

                                    解くtaskの	
  
                                   labeled	
  data	
  
                                                          素性	
  
                                     2.	
  素性ベクトル作成	
    ベクトル	

                         1.学習	
       大量の	
  
   unlabeled	
  data	
            Representa1on	
                                                               3.	
  学習	


                                                         解くtaskの	
  
                                                          分類器	




2011/12/13	
                                                                7
Unsupervised	
  HMMs	
                                                (本当は有向)	
  




   •  それぞれの語が	
  K	
  状態のうちのいずれかの状態を持つ、というモデル	
  
   •  EMアルゴリズムによってパラメータ P(xi|yi),	
  P(yi|yi-­‐1) の推定が可能	
  
   •  Viterbiアルゴリズムによって状態のデコードが可能	
  

   •  高村さんの本に書いてあるHMMは	
  Supervised-­‐HMMs	
  なので注意	
  
2011/12/13	
                                                   8
I-­‐HMM(Independent-­‐HMM)	
                                                  本当は有向	




                                                                  M	




          M個のHMM(レイヤー)を(初期値をランダムに変えて)独立に構築	
  
          それぞれのノードが	
  K	
  状態のいずれかの値をもっている(HMMと同じ)	
  
2011/12/13	
                                                9
I-­‐HMMの問題点	
• 	
  それぞれのHMMが独立に訓練されており、
      文の別の側面を(異なるレイヤで)捉えるとい
      うモデルになっていない	
  
•  それぞれのレイヤーが語の異なる側面をとら
      えるようにしたい	
  
      –  POS,	
  gender,	
  number,	
  格(case),	
  人称,	
  テンス,	
  etc..	
  
•  レイヤー間のインタラクションの導入	


2011/12/13	
                                                             10
La`ce	
  Structured	
  MRF	
                     i	




                                                                 M	
j	




      2011/12/13	
                                        11
La`ce	
  Structured	
  MRF	
      極大クリークを因子とした対数線形モデルで表現(PRML	
  8.3に類似例あり)	



           P(x)	
  =	
  	




      パラメータとしては、例えば・・・	
         となりあった二つのノードに関する遷移パラメタ	


         観測された語に関するパラメタ	

         となりあった二つのレイヤに関するパラメタ	

         ただし、O(2M)個のパラメータがあるのでExactな推論/学習はほぼ不可能	
2011/12/13	
                                            12
Par1al	
  La`ce	
  MRF	
odd	




even	
                                                                            M	




odd	




   いくつかのエッジを削除する。文の前半では(odd	
  –	
  even),	
  文の後半では	
  (even	
  –	
  odd)	
  の間	
  
   (あまり納得できるような正当化はなされていない)	
    2011/12/13	
                                                              13
Par1al	
  La`ce	
  MRF	
•  エッジを削除することで効率的計算が可能にな
   る	
  
      –  動的計画法,	
  メッセージパッシング	
  
      –  tree-­‐width(木幅:グラフがどれだけ木に近いかを表す
         指標)が	
  2	
  
               •  木幅が	
  1	
  であれば木、低いほど効率的な計算が可能	
  
      –  O(K4MN)	
  
               •  K	
  :	
  ノードの状態数,	
  M:レイヤー数,	
  N	
  :	
  文長	
  
•  (論文には書いていないが)モデルの柔軟さをで
   きるだけ損なわずに木幅を低くして計算しやすく
   するためのエッジ削除法なのではないか	
  

2011/12/13	
                                                           14
Contras1ve	
  Es1ma1on	
•  (Smith	
  and	
  Eisner,	
  	
  2005)	
  
•  対数線形モデルをUnlabeled	
  Dataから学習す
   る一般的な枠組み	
  
      –  Contras1ve	
  Divergence学習,	
  擬似負例からの学
         習	




               N(x)	
  :	
  Neighborhood	
  func1on(本論文では、隣接する二単語を入れ替えたもの)	

2011/12/13	
                                                            15
?	
                  ?	
                    ?	
                      ?	
                   ?	
                   ?	
  
        p      red	
            leaves	
                  don t	
            hide	
                      blue	
                jays	
  


                             ?	
                 ?	
            ?	
           ?	
                ?	
                   ?	
  
                           red	
         leaves	
           don t	
        hide	
             blue	
                jays	
  

                             ?	
                 ?	
            ?	
           ?	
                ?	
                   ?	
  
                         leaves	
              red	
        don t	
        hide	
             blue	
                jays	
  

                             ?	
                 ?	
            ?	
           ?	
                ?	
                   ?	
  
                           red	
              don t	
      leaves	
        hide	
             blue	
                jays	
  
     p                       ?	
                 ?	
            ?	
           ?	
                ?	
                   ?	
  
                           red	
          leaves	
           hide	
        don t	
   blue	
                         jays	
  

                            ?	
                 ?	
            ?	
            ?	
                ?	
                  ?	
  
                          red	
          leaves	
           don t	
        blue	
             hide	
                jays	
  

                            ?	
                 ?	
            ?	
           ?	
                ?	
                   ?	
  
                          red	
          leaves	
          don t	
         hide	
             jays	
            blue	
  
2011/12/13	
                                                                                                                              16	
                                                                        Smith	
  and	
  Eisner,	
  ACL2005発表スライドより引用
その他学習における工夫	
•  目的関数はnon-­‐convexなので勾配法で局所
   解を求めることになる	
  
•  For	
  tractability:一層づつ順番に訓練する	
  
      –  層 i	
  に「関係する」パラメータを θi,	
  その他を θ¬i	
  
      –  まず	
  θ¬0	
  をすべてゼロに固定し、	
  θ0	
  を最適化	
  
      –  収束したら固定して、次の層にとりかかる	
  
      –  一層あたり100iter以下で収束するらしい	
  



2011/12/13	
                                          17
Domain	
  Adapta1on	
  for	
  a	
  POS	
  Tagger	
 Newspaper	
  Domain(WSJ)	
  	
  =>	
  Biomedical	
  Domain(MEDLINE)	
  へのドメイン適応	




                                       Penn	
  Treebank	
  
     Penn	
  Treebank	
                  +MEDLINE	
                         MEDLINE	
  
                                       71306	
  sentence	
                561	
  sentence	




 labeled	
  training	
  data	
     unlabeled	
  training	
  data	
     labeled	
  test	
  data	
  
    for	
  POS	
  Tagger	
              for	
  train	
  LMs	
  

2011/12/13	
                   POS	
  Taggerの学習モデルはCRF	
                                                    18
Domain	
  Adapta1on	
  for	
  a	
  POS	
  Tagger	




                                              trigram	
  on	
  Web1T	
                                              8	
  layer,	
  80	
  state	
                                              20	
  layer,	
  binary	
                                    可能な状態数	
  	
  
                                    I-­‐HMM	
  :	
  1015	
  ,	
  PL-­‐MRF	
  :	
  106	
  	

 bioドメインの	
   PL-­‐MRFはOOV-­‐errorを大幅に下げることに成功している	
 ラベルつきデータ併用	
2011/12/13	
                                    19
Domain	
  Adapta1on	
  for	
  a	
  POS	
  Tagger	

                                             多義語の判定は	
  
                                             人手で行った。	
  
                                             	
  
                                             unlabeledデータ	
  
                                             中に5回以下しか	
  
                                             出現しない語を	
  
                                             sparse語、	
  
                                             50回以上出現	
  
                                             する語を	
  
                                             non-­‐sparse語	
  
                                             として調査。	
  



多義語においては、グラフィカルモデルに基づく言語モデルの効果が大きい	
  
  	
  おそらくViterbiデコードを行うときにコンテキストを考慮に入れることができるため	
  
スパースな語においてもグラフィカルモデルの効果は(そうでない語と比較して)大きい。	
2011/12/13	
                                           20
Informa1on	
  Extrac1on	
•  set-­‐expansion	
  task	
  
      –  種語が幾つか与えられた状況で、コーパス中に
         出現する同じ意味カテゴリの語を獲得するタスク	
  
      –  distribu1onal	
  hypothesisに基づいた手法	
  
               •  同じ意味カテゴリに属する語はそのコンテキストにあら
                  われる語の分布も似ているだろう、という仮定	
  
      –  正例の一部だけが与えられているという意味で	
  
         “weakly-­‐supervised”	
  である	
  


2011/12/13	
                                  21
Informa1on	
  Extrac1on	
•  手法	
  
      1.  コーパス、シードの集合が与えられている	
      2.  それぞれの意味カテゴリCに対して	
  
               •  すべての候補フレーズP	
  が、カテゴリCに属する尤もらしさで
                  降順に並べる	
  
      –  各カテゴリに対して、シードとして語を幾つか与えて
         その平均値ベクトルをCのprototype	
  vectorとする	
  
      –  それぞれのフレーズPに対して、prototype	
  vectorとの
         距離をはかり、近い順にカテゴリCに属すると判定	
  
               •  距離	
  :	
  KL,	
  JS疑距離,	
  cosine,	
  ユークリッド,	
  L1の単純平均	
  
                   –  チューニングしても効果はなかったらしい	
  


2011/12/13	
                                                                      22
Informa1on	
  Extrac1on	
•  実験データ	
  
      –  Webから集めた10万文	
  
      –  Lexアルゴリズム(Downey	
  et	
  al.,	
  2007)を用いて複数
         語からなる固有名詞は一語として認識できるように結
         合	
  
      –  Wikipediaの	
  “listOf”	
  ページから正解データを得た(16
         カテゴリ、432事例)	
  
•  実験設定	
  
      –  seed事例を5個づつ、という実験をseedをランダムに
         変えながら5回	
  
      –  評価はAUC	
  metric.	
  
               •  Recall-­‐Precision	
  曲線の下側の面積(大きいほど良い)	
  

2011/12/13	
                                                    23
Informa1on	
  Extrac1on	




 ランダムベースラインよりは	
  
 良くなったものの、提案手法
 (LATTICE-­‐TYPE-­‐R)の効果はみ   あるカテゴリに90%以上のインスタンスが属さ
 えない	
                       ない場合は多義 (人手で推定)、コーパス中に
                             30回以下の場合はスパース、と定義	
  



2011/12/13	
                                      24
IEで性能が振るわない理由	
•  分類する「対象」の違いが疑わしい	
  
      –  POSタギング:	
  “token”(インスタンス)の分類	
  
      –  IE	
  :	
  “type”(語そのもの)	
  の分類	
  
•  Representa1onのモデル	
  
      –  PL-­‐MRFはHMMに比べてtransi1onのパラメータに依存が
         大きいのではないか	
  
      –  訓練に用いているContras1ve	
  Es1ma1onもtransi1onパラ
         メータに対する依存を強くする効果がありそうだ	
  
•  語が与えられた状態でのモデルの事後分布	
  
      –  エントロピー :	
  PL-­‐MRF	
  :	
  9.95	
  bits,	
  HMM	
  :	
  2.74bits	
  
      –  PL-­‐MRFは語が決まってもモデルの曖昧性が高い	
  
•  結論	
  :	
  よく分からないので更なる実験が必要	
2011/12/13	
                                                                      25
Conclusion	
•  まとめ	
  
      –  多義性やスパースな状況に対応できるような素性表現	
  
      –  本論文で提案したグラフィカルモデルに基づくrepresenta1onは
         POS	
  TaggerのDomain	
  Adapta1onで	
  state-­‐of-­‐the-­‐art.	
  
      –  IEにおける多義性の扱い等は今後の課題	
  
•  以下、個人的感想	
  
      –  (PL-­‐)MRFで層ごとに”異なる側面”が学習されるメカニズムが理
         解できなかった	
  
      –  そもそも	
  IE	
  は問題設定としてどうなのだ	
  
               •  というかこれは	
  IE	
  なのだろうか,	
  多義性を考慮するtype分類とは	
  
      –  Token-­‐based	
  tasks(POS	
  Tagger)と	
  Type-­‐based	
  tasks(IE)で異なっ
         た素性表現が有効であるというのは割と納得できる	
  
      –  Contras1ve	
  Es1ma1onについては、本論文ではさらっとしか触
         れていないが、応用範囲はかなり広いようだ	
  

2011/12/13	
                                                                   26

Contenu connexe

Similaire à Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011) (6)

Deep learning勉強会20121214ochi
Deep learning勉強会20121214ochiDeep learning勉強会20121214ochi
Deep learning勉強会20121214ochi
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来
 
Kuroda & Hasebe NLP15 slides on Pattern Lattice Model
Kuroda & Hasebe NLP15 slides on Pattern Lattice ModelKuroda & Hasebe NLP15 slides on Pattern Lattice Model
Kuroda & Hasebe NLP15 slides on Pattern Lattice Model
 
2015 08 survey
2015 08 survey2015 08 survey
2015 08 survey
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
 

Plus de Koji Matsuda

Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Koji Matsuda
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by Example
Koji Matsuda
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric Learning
Koji Matsuda
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation Maximization
Koji Matsuda
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
Koji Matsuda
 
研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節
Koji Matsuda
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Koji Matsuda
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
 

Plus de Koji Matsuda (19)

Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
 
KB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみたKB + Text => Great KB な論文を多読してみた
KB + Text => Great KB な論文を多読してみた
 
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...Large-Scale Information Extraction from Textual Definitions through Deep Syn...
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
 
知識を紡ぐための言語処理と、 そのための言語資源
知識を紡ぐための言語処理と、そのための言語資源知識を紡ぐための言語処理と、そのための言語資源
知識を紡ぐための言語処理と、 そのための言語資源
 
「今日から使い切る」 ための GNU Parallel による並列処理入門
「今日から使い切る」ための GNU Parallelによる並列処理入門「今日から使い切る」ための GNU Parallelによる並列処理入門
「今日から使い切る」 ための GNU Parallel による並列処理入門
 
場所参照表現タグ付きコーパスの 構築と評価
場所参照表現タグ付きコーパスの構築と評価 場所参照表現タグ付きコーパスの構築と評価
場所参照表現タグ付きコーパスの 構築と評価
 
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
 
いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5いまさら聞けない “モデル” の話 @DSIRNLP#5
いまさら聞けない “モデル” の話 @DSIRNLP#5
 
Practical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architecturesPractical recommendations for gradient-based training of deep architectures
Practical recommendations for gradient-based training of deep architectures
 
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...Align, Disambiguate and Walk  : A Unified Approach forMeasuring Semantic Simil...
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
 
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary FeaturesJoint Modeling of a Matrix with Associated Text via Latent Binary Features
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component Analysis
 
A Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by ExampleA Machine Learning Framework for Programming by Example
A Machine Learning Framework for Programming by Example
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric Learning
 
Unified Expectation Maximization
Unified Expectation MaximizationUnified Expectation Maximization
Unified Expectation Maximization
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
 
研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節研究室内PRML勉強会 8章1節
研究室内PRML勉強会 8章1節
 
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 

Language Models as Representations for Weakly-­Supervised NLP Tasks (CoNLL2011)

  • 1. Language  Models  as   Representa1ons  for     Weakly-­‐Supervised  NLP  Tasks Fei  Huang,  Alexander  Yates,  Arun  Ahuja   and  Doug  Downey   CoNLL2011   紹介者  :  松田 2011/12/13 1
  • 2. Introduc1on •  NLPのタスクの多くは分類問題に帰着できる   •  分類に用いる素性ベクトルの作り方に性能が大 きく依存する   –  人手で注意深くつくられた素性が強い   •  しかし、(特にDomain  Adapta1onのような状況に おいて)次のような問題が性能を制限している   –   スパース性   •  訓練データに出てきていない語に対応する能力   –  多義性   •  ドメインに依存して語義の分布がかわる(POSの分布もかわ る)ような語に対応する能力   2011/12/13 2
  • 3. Introduc1on •  この問題に対処するために、素性表現に着目   –  unseen  exampleに対する汎化性能を上げるような素性表現   –  distribu1onal  hypothesis  :  意味の似た語はコンテキストも似て いる   •  研究のゴール   –  コンテキストを考慮した確率的言語モデルに基づく素性表現を 開発   –  素性表現:語(token  /  type)から実数値ベクトルへのマッピング   •  言語モデルから生成  →  コンテキストを考慮したベクトルを生成できる   •  コンテキストから生成  →  多義性やスパース性に対して頑健になる   2011/12/13 3
  • 4. Previous  Work •  素性表現についての研究は主に四つに分類される   1.  文書レベルでの共起指標に基づくVector  Space  Model   2.  Vector  Space  Modelに対する次元削減   3.  分布類似度に基づくクラスタリング   4.  言語モデルに基づく素性表現   •  PL-­‐MRFという新しいrepresenta1onを提案し、 POS  Taggerにお いてstate-­‐of-­‐the-­‐artな性能を達成したところがcontribu1on   •  Domain  Adapta1onの研究としては   –  targetドメインのラベルつきデータがある設定   –  targetドメインのラベルつきデータが無い設定   –  本研究は後者   2011/12/13 4
  • 5. Representa1ons •  A  representa1on  is  a  set  of  features  that   describe  instances  for  a  classifier   •  形式的な定義   –  事例集合から素性空間への写像を行う関数   –  R(x)  :  Yという素性空間(  such  as  Rd  )  の中の一つの ベクトル   2011/12/13 5
  • 6. Representa1ons(具体例) 伝統的な素性表現 trigram言語モデル グラフィカルモデル クラスタリングに   基づく表現 提案手法 *-­‐TOKEN-­‐R  :  ある語の”特定の”出現事例に対する素性表現(Viterbi等でデコードした値)   *-­‐TYPE-­‐R  :  語それ自体に対する素性表現(コーパス中で一定) 2011/12/13 6
  • 7. フレームワーク 解くtaskの   labeled  data   素性   2.  素性ベクトル作成 ベクトル 1.学習 大量の   unlabeled  data Representa1on 3.  学習 解くtaskの   分類器 2011/12/13 7
  • 8. Unsupervised  HMMs (本当は有向)   •  それぞれの語が  K  状態のうちのいずれかの状態を持つ、というモデル   •  EMアルゴリズムによってパラメータ P(xi|yi),  P(yi|yi-­‐1) の推定が可能   •  Viterbiアルゴリズムによって状態のデコードが可能   •  高村さんの本に書いてあるHMMは  Supervised-­‐HMMs  なので注意   2011/12/13 8
  • 9. I-­‐HMM(Independent-­‐HMM) 本当は有向 M M個のHMM(レイヤー)を(初期値をランダムに変えて)独立に構築   それぞれのノードが  K  状態のいずれかの値をもっている(HMMと同じ)   2011/12/13 9
  • 10. I-­‐HMMの問題点 •   それぞれのHMMが独立に訓練されており、 文の別の側面を(異なるレイヤで)捉えるとい うモデルになっていない   •  それぞれのレイヤーが語の異なる側面をとら えるようにしたい   –  POS,  gender,  number,  格(case),  人称,  テンス,  etc..   •  レイヤー間のインタラクションの導入 2011/12/13 10
  • 11. La`ce  Structured  MRF i M j 2011/12/13 11
  • 12. La`ce  Structured  MRF 極大クリークを因子とした対数線形モデルで表現(PRML  8.3に類似例あり) P(x)  =   パラメータとしては、例えば・・・ となりあった二つのノードに関する遷移パラメタ 観測された語に関するパラメタ となりあった二つのレイヤに関するパラメタ ただし、O(2M)個のパラメータがあるのでExactな推論/学習はほぼ不可能 2011/12/13 12
  • 13. Par1al  La`ce  MRF odd even M odd いくつかのエッジを削除する。文の前半では(odd  –  even),  文の後半では  (even  –  odd)  の間   (あまり納得できるような正当化はなされていない) 2011/12/13 13
  • 14. Par1al  La`ce  MRF •  エッジを削除することで効率的計算が可能にな る   –  動的計画法,  メッセージパッシング   –  tree-­‐width(木幅:グラフがどれだけ木に近いかを表す 指標)が  2   •  木幅が  1  であれば木、低いほど効率的な計算が可能   –  O(K4MN)   •  K  :  ノードの状態数,  M:レイヤー数,  N  :  文長   •  (論文には書いていないが)モデルの柔軟さをで きるだけ損なわずに木幅を低くして計算しやすく するためのエッジ削除法なのではないか   2011/12/13 14
  • 15. Contras1ve  Es1ma1on •  (Smith  and  Eisner,    2005)   •  対数線形モデルをUnlabeled  Dataから学習す る一般的な枠組み   –  Contras1ve  Divergence学習,  擬似負例からの学 習 N(x)  :  Neighborhood  func1on(本論文では、隣接する二単語を入れ替えたもの) 2011/12/13 15
  • 16. ?   ?   ?   ?   ?   ?   p red   leaves   don t   hide   blue   jays   ?   ?   ?   ?   ?   ?   red   leaves   don t   hide   blue   jays   ?   ?   ?   ?   ?   ?   leaves   red   don t   hide   blue   jays   ?   ?   ?   ?   ?   ?   red   don t   leaves   hide   blue   jays   p ?   ?   ?   ?   ?   ?   red   leaves   hide   don t   blue   jays   ?   ?   ?   ?   ?   ?   red   leaves   don t   blue   hide   jays   ?   ?   ?   ?   ?   ?   red   leaves   don t   hide   jays   blue   2011/12/13 16 Smith  and  Eisner,  ACL2005発表スライドより引用
  • 17. その他学習における工夫 •  目的関数はnon-­‐convexなので勾配法で局所 解を求めることになる   •  For  tractability:一層づつ順番に訓練する   –  層 i  に「関係する」パラメータを θi,  その他を θ¬i   –  まず  θ¬0  をすべてゼロに固定し、  θ0  を最適化   –  収束したら固定して、次の層にとりかかる   –  一層あたり100iter以下で収束するらしい   2011/12/13 17
  • 18. Domain  Adapta1on  for  a  POS  Tagger Newspaper  Domain(WSJ)    =>  Biomedical  Domain(MEDLINE)  へのドメイン適応 Penn  Treebank   Penn  Treebank +MEDLINE   MEDLINE   71306  sentence 561  sentence labeled  training  data   unlabeled  training  data   labeled  test  data   for  POS  Tagger   for  train  LMs   2011/12/13 POS  Taggerの学習モデルはCRF 18
  • 19. Domain  Adapta1on  for  a  POS  Tagger trigram  on  Web1T 8  layer,  80  state 20  layer,  binary 可能な状態数     I-­‐HMM  :  1015  ,  PL-­‐MRF  :  106   bioドメインの   PL-­‐MRFはOOV-­‐errorを大幅に下げることに成功している ラベルつきデータ併用 2011/12/13 19
  • 20. Domain  Adapta1on  for  a  POS  Tagger 多義語の判定は   人手で行った。     unlabeledデータ   中に5回以下しか   出現しない語を   sparse語、   50回以上出現   する語を   non-­‐sparse語   として調査。   多義語においては、グラフィカルモデルに基づく言語モデルの効果が大きい    おそらくViterbiデコードを行うときにコンテキストを考慮に入れることができるため   スパースな語においてもグラフィカルモデルの効果は(そうでない語と比較して)大きい。 2011/12/13 20
  • 21. Informa1on  Extrac1on •  set-­‐expansion  task   –  種語が幾つか与えられた状況で、コーパス中に 出現する同じ意味カテゴリの語を獲得するタスク   –  distribu1onal  hypothesisに基づいた手法   •  同じ意味カテゴリに属する語はそのコンテキストにあら われる語の分布も似ているだろう、という仮定   –  正例の一部だけが与えられているという意味で   “weakly-­‐supervised”  である   2011/12/13 21
  • 22. Informa1on  Extrac1on •  手法   1.  コーパス、シードの集合が与えられている 2.  それぞれの意味カテゴリCに対して   •  すべての候補フレーズP  が、カテゴリCに属する尤もらしさで 降順に並べる   –  各カテゴリに対して、シードとして語を幾つか与えて その平均値ベクトルをCのprototype  vectorとする   –  それぞれのフレーズPに対して、prototype  vectorとの 距離をはかり、近い順にカテゴリCに属すると判定   •  距離  :  KL,  JS疑距離,  cosine,  ユークリッド,  L1の単純平均   –  チューニングしても効果はなかったらしい   2011/12/13 22
  • 23. Informa1on  Extrac1on •  実験データ   –  Webから集めた10万文   –  Lexアルゴリズム(Downey  et  al.,  2007)を用いて複数 語からなる固有名詞は一語として認識できるように結 合   –  Wikipediaの  “listOf”  ページから正解データを得た(16 カテゴリ、432事例)   •  実験設定   –  seed事例を5個づつ、という実験をseedをランダムに 変えながら5回   –  評価はAUC  metric.   •  Recall-­‐Precision  曲線の下側の面積(大きいほど良い)   2011/12/13 23
  • 24. Informa1on  Extrac1on ランダムベースラインよりは   良くなったものの、提案手法 (LATTICE-­‐TYPE-­‐R)の効果はみ あるカテゴリに90%以上のインスタンスが属さ えない ない場合は多義 (人手で推定)、コーパス中に 30回以下の場合はスパース、と定義   2011/12/13 24
  • 25. IEで性能が振るわない理由 •  分類する「対象」の違いが疑わしい   –  POSタギング:  “token”(インスタンス)の分類   –  IE  :  “type”(語そのもの)  の分類   •  Representa1onのモデル   –  PL-­‐MRFはHMMに比べてtransi1onのパラメータに依存が 大きいのではないか   –  訓練に用いているContras1ve  Es1ma1onもtransi1onパラ メータに対する依存を強くする効果がありそうだ   •  語が与えられた状態でのモデルの事後分布   –  エントロピー :  PL-­‐MRF  :  9.95  bits,  HMM  :  2.74bits   –  PL-­‐MRFは語が決まってもモデルの曖昧性が高い   •  結論  :  よく分からないので更なる実験が必要 2011/12/13 25
  • 26. Conclusion •  まとめ   –  多義性やスパースな状況に対応できるような素性表現   –  本論文で提案したグラフィカルモデルに基づくrepresenta1onは POS  TaggerのDomain  Adapta1onで  state-­‐of-­‐the-­‐art.   –  IEにおける多義性の扱い等は今後の課題   •  以下、個人的感想   –  (PL-­‐)MRFで層ごとに”異なる側面”が学習されるメカニズムが理 解できなかった   –  そもそも  IE  は問題設定としてどうなのだ   •  というかこれは  IE  なのだろうか,  多義性を考慮するtype分類とは   –  Token-­‐based  tasks(POS  Tagger)と  Type-­‐based  tasks(IE)で異なっ た素性表現が有効であるというのは割と納得できる   –  Contras1ve  Es1ma1onについては、本論文ではさらっとしか触 れていないが、応用範囲はかなり広いようだ   2011/12/13 26