Publicité
Publicité

Contenu connexe

Publicité
Publicité

Semantic_Matching_AAAI16_論文紹介

  1. 2017.11.28 NAIST  ⾃自然⾔言語処理理学研究室 D1  Masayoshi  Kondo   論論⽂文紹介-‐‑‒  About  Neural  Summarization@2017   A  Deep  Architecture  for  Semantic  Matching With  Multiple  Positional  Sentence  Representations AAAIʼ’16 Shengxian  Wan,  Yanyan  Lan,  Jiafeng  Guo,  Jun  Xu,  Liang  Pang,  and  Xueqi  Cheng CAS  Key  Lab  of  Network  Data  Science  and  Technology Institute  of  Computing  Technology,  Chinese  Academy  of  Sciences,  China
  2. 00:  論論⽂文の概要 •   2つのセンテンスが与えられた時、似ているか否かの判定タスクをDNNで解く研究. •   attentionをとった特徴量量の処理理⽅方法(Cosine,  Bilinear,  TensorLayer)が本研究のポイント. •   実験は2つ.ひとつはQuestion  Answer、もうひとつはSentence  Completion. •   評価指標は、P@1とMRR(Mean  Reciprocal  Rank). •   従来よりも⾼高い精度度を⽰示す. 【まとめ】 【abstract】 ⾃自然⽂文マッチング(Matching  Natural  Language  Sentence)は、情報検索索やQAシステムといった多くの応⽤用 の中⼼心的役割を担っている.既存のディープニューラルモデルは、マッチングの際に単純な⽂文章の representationまたは複数の粒粒度度からなるrepresentationに頼っている.しかしながら、このような⽅方法は、 マッチング時に⽂文脈の局所的な情報を掴むことができない.この課題に取り組むために、我々は新しい ディープニューラルモデルを提案する.提案モデルは、multiple  positional  sentence  representation を⽤用いることで2つの⽂文章のマッチングを⾏行行う.具体的には、それぞれのpositional  sentence   representationは、Bi-‐‑‒LSTMモデルによって⽣生成されたある⽂文章の特定の位置のrepresentationを⽰示す. これらの異異なる位置の⽂文章representation間の相互作⽤用量量をk-‐‑‒Max  poolingやmulti-‐‑‒layer  perceptron を通して統合し、最終的なマッチングスコアが与えられる.我々の提案法はいくつかの⻑⾧長所がある. (1)positional  sentence  representationの⽂文脈の局所的情報を取り出すことに、Bi-‐‑‒LSTMを⽤用いることに よって得た⽂文章全体の豊かな⽂文脈が効果を発揮する.(2)multiple  positional  sentence  representationを⽤用 いてマッチングを⾏行行うことで、マッチングをより精度度良良くするような、⽂文章に含まれている様々な重要な⽂文 脈の局所的情報を集めやすくなる.(3)Question  Answering  と  Sentence  Completion  といった異異なるタス クの実験を通して、我々のモデルの優位性を⽰示す.
  3. 1.   Introduction 2.   Our  Approach 3.   Experiments 4.   Conclusion
  4. 1.   Introduction 2.   Our  Approach 3.   Experiments 4.   Conclusion
  5. Matching  Sentence (Semantic  Matching) [  Basic  Task  (Core  Task)  ] Information Retrieval Question  Answering Recognizing  Textual   Entailment  (RTE) NLPにおける基礎的タスク 実⽤用的タスク Matching  Sentence  (Semantic  Matching) -‐‑‒-‐‑‒:  Preliminaries 与えられる2つの⽂文章(主に単⼀一⽂文章)が似ているか否かを判定するタスク. ここでいう「似ている」は、同じ意味として解釈可能か否かを指す.また、 特定の意図(命題)に沿って、真か否かを判定する場合もある. Paraphrase  Identification 各タスクの設定に応じて、 Matching  Sentence   の技術を応⽤用
  6. -‐‑‒-‐‑‒:  Preliminaries w1 w2 w3 wi wn w1 w2 w3 wi wm…… …… Sentence-‐‑‒A  /  Length:n Sentence-‐‑‒B  /  Length:m f (SA,SB;θ)マッチング関数 SCORE  : 0,1{ }∈ R 【Train】 【Test】 ((SA,SB),  label)ペアデータから、loss関数を最⼩小にするようにパラメータθを学習. 学習済みモデルを⽤用いて、未知の(SA,SB)ペアに対してlabelを予測. SCORE  と  Label  を引数 とするloss関数を設定して、 最⼩小化.
  7. -‐‑‒-‐‑‒:  Preliminaries 【Dataset】 【Evaluation  Metrics】 •  [RTE]  :  Stanford  Natural  Language  Inference  Corpus  (SNLI) •  [QA]  :  Yahoo  !  Answers •  [QA]  :  Qatar  Living  Forum  (http://www.qatarliving.com/forum) •  [Response  Selection]  :  Ubuntu  Corpus •  [Sentence  Completion]  :  Reuters •  Accuracy •  P@1 •  MRR(Mean  Reciprocal  Rank)    
  8. 01:  Introduction Semantic  Matching  は、⾃自然⾔言語処理理の多くの応⽤用に必要不不可⽋欠なタスク •  Information  Retrieval •  Question  Answering •  Paraphrase  Identification 例例)Question  Answering  : 質問q  と  回答a  が与えられた下で、マッチング関数は、2つの⽂文章 (質問⽂文、回答⽂文)がどれだけ適合しているかを評価する. 深層学習モデル  (Deep  Neural  Networks)  の発展 -‐‑‒  ⽂文章全体を単純なrepresentationとして表現 -‐‑‒  2つのrepresentation間の類似度度を計算 DSSM[Huang  et  al,  13]  /  CDSMM[Shen  et  al,  14]  /  ARC-‐‑‒I[Hu  et  al,  14] CNTN[Qiu  and  Huang,  15]  /  LSTM-‐‑‒RNN[Palangi  et  al,  15] 課題 複雑な⽂文章を1つの単純なベクトルに変換する際、重要な局所的情報が喪失.
  9. 02:  Introduction 例例えば・・・ Q  :  Which  teams  won  top  three  in  the  World  Cup  ? A1  :  Germany  is  the  champion  of  the  World  Cup. The  top  three  of  the  European  Cup  are  Spain,   Netherlands  and  Germany. A2  :   このとき:     「top  three」に注⽬目    :「A2の回答の⽅方が良良さそう」     「World  Cup」に注⽬目  :「A1の回答の⽅方が良良さそう」 従来法(single  sentence  representation):上記の局所的な情報を扱えない.   -‐‑‒  複雑な⽂文章を直接的にひとつのrepresentationに埋め込むため.   【課題】
  10. 03:  Introduction その他の⼿手法:taking  multiple  granularity                                          (ex:  word,  phrase,  sentence  level  representation)   ARC-‐‑‒II[Hu  et  al.,  13]  /  RAE[Socher  et  al.,  14]  /  Deep-‐‑‒Match[Lu  and  Li,  14] Bi-‐‑‒CNN-‐‑‒MI,  MultiGranCNN[Yin  and  Schutze,  15] 複数のrepresentationを考慮することで、⽂文章の情報を記憶  →  精度度向上 Q  :  Which  teams  won  top  three  in  the  World  Cup  ? A1  :  Germany  is  the  champion  of  the  World  Cup. The  top  three  of  the  European  Cup  are  Spain,   Netherlands  and  Germany. A2  :   A3  :  The  top  three  attendees  of  the  European  Cup  are from  Germany,  France  and  Spain. •  A2の回答の⽅方が、A3の回答より良良さそう. •  【理理由】:A2は、出場チームの  top  three  を⽰示しているから.
  11. 課題 複数のrepresentationを⽤用いることで局所的な情報を取り扱うことは可能になった ⼀一⽅方で、⽂文章全体から単語やフレーズの真の意味を反映させることには限界がある. multiple  granularityのモデル  :  上記の区別が⾏行行うことができない.     04:  Introduction Q  :  Which  teams  won  top  three  in  the  World  Cup  ? A1  :  Germany  is  the  champion  of  the  World  Cup. The  top  three  of  the  European  Cup  are  Spain,   Netherlands  and  Germany. A2  :   A3  :  The  top  three  attendees  of  the  European  Cup  are from  Germany,  France  and  Spain. A2  と  A3  の「top  three」は、異異なる意味を⽰示している. 【A2】:  about  top  three  teams  (出場チーム) 【A3】:  about  top  three  attendees  (選出国)
  12. 05:  Introduction 2つの⽂文章がどれほどマッチしているかを知るには、 ⽂文脈の局所的情報から得られる⽂文章のrepresentationが必要. 本研究では、 •  MV-‐‑‒LSTMという新しいニューラルネットのアーキテクトを提案. •  ⽂文章の各単語毎の⽂文章representationを獲得. •  2つの⽂文章に対して各単語の⽂文章representation毎の相互作⽤用をモデル化. -‐‑‒    Cosine  /  Bilinear  /  Tensor Single  sentence  representation  methods  との違い: Multiple  granularity  deep  models  との違い: 単語毎に⽂文章representationを有するので、重要な局所的情報を獲得できる. 単語毎の⽂文章representationを獲得するためにBi-‐‑‒LSTMを⽤用いることで、局所 的情報の重要性を与えるための優れた⽂文脈の獲得に効果がある.
  13. 06:  Introduction 本論論⽂文の貢献:3つ •  重要な⽂文脈の局所的情報を獲得するための複数のMultiple   sentence  representationを⽤用いたマッチング⽅方式の提案. •  Semantic  Matchingのための、Bi-‐‑‒LSTMから⽣生成される Multiple  sentence  representationを統合することのでき る新しいニューラルネットのアーキテクト. •  2つのデータセットを⽤用いた実験(question  answering/ sentence  completion)による提案法の有⽤用性の提⽰示.
  14. 1.   Introduction 2.   Our  Approach 3.   Experiments 4.   Conclusion
  15. 07:  Our  Approach 【  提案⼿手法(MV-‐‑‒LSTM)の特徴  】 ⽂文章の複数の位置に関するrepresentationを獲得して⽤用いること. Similarity  Score
  16. Step  1:  Positional  Sentenve  Representation →  ⼀一般的なBi-‐‑‒LSTMの説明と提案法への導⼊入理理由の説明のため、割愛. Step  2:  Interactions  Between  Two  Sentence 08:  Our  Approach 【Cosine】:  Scalar 【Bilinear】:  Scalar 【Tensor  Layer】:  Vector s(u,v) = uT v u ⋅ v s(u,v) = uT Mv+ b s(u,v) = f uT M[1:c] v+Wuv u v ! " # $ % &+ b ' ( )) * + ,, -‐‑‒  Similarity  Score  :  S(u,v) •  ⼀一般的なメトリクス. •  2つのベクトルの⾓角度度によって 類似性を測定. •  異異なるベクトルサイズでも相互作⽤用 を計算可能. •  Cosineよりも表現⼒力力⾼高い. (※  ||・||:L2-‐‑‒norm) •  Mi(i=1,…,c):i番⽬目のテンソル スライス.関数fは、⾮非線形関数. •  本研究では、f(z)=max(0,  z).
  17. 09:  Our  Approach Step  3:  Interaction  Aggregation -‐‑‒  k-‐‑‒Max  Pooling -‐‑‒  MultiLayer  Perception •  2つの⽂文章に対して、最も強い相互作⽤用量量をk個抽出したい気持ち. •  [  Cosine,  Biliner  ]  :  a  interactive  matrix  →  a  vector  q •  [  Tensor  Layer  ]  :  a  interactive  tensor  →  vectors  (for  each  slice)–                           –  concat  →  a  vector  q パラメータk  について  k=1の時:最⼤大の相互作⽤用量量の部分のみを考慮.  k=nの時:トップnの相互作⽤用量量の部分を考慮.→  複数の重要部を考慮 r = f (Wrq + br ) s = f (Wsr + bs ) •  ベクトルqは、k-‐‑‒max  poolingの出⼒力力. •  出⼒力力sは、マッチング関数のスコア. •  Full  Connected  Layer.
  18. L SX,SY + ,SY − ( )= max 0,1− s(SX,SY + )+ s(SX,SY − )( ) 10:  Our  Approach Model  Training 注)  論論⽂文では、「For  different  tasks,  we  need  to  utilize  different  loss  functions  to  train   our  model.  For  example,  if  the  task  is  formalized  as  a  ranking  problem,  ~∼  」と記述され ていて、本研究の実験において、提案⼿手法のloss関数に上記式を⽤用いたかは少し疑わしい. Given  a  triplet-‐‑‒ SX,SY + ,SY − ( ) , SY + ,SY − : SY +  is  ranked  higher  than  SY -‐‑‒,  when  matching  with  SX.   s(SX,SY + ) s(SX,SY − ) 与えられる2つの⽂文章に対して、            の場合は⾼高くなった⽅方が良良く、⼀一⽅方で、             の場合は、低くなった⽅方が良良い.すなわち、「より似ている⽂文章ペア」 については「似ている」と学習し、「似ている度度合いが低い⽂文章ペア」については 「似ていない」と学習してほしい気持ちが、Loss関数に反映されている. (※:loss関数は、Hinge  Loss.)
  19. 1.   Introduction 2.   Our  Approach 3.   Experiments 4.   Conclusion
  20. 実験  :  2つ 11:  Experiments 【  Question  Answering  (QA)  】:            質問q  に対してベストの  回答a  を選び出せ. 【  Sentence  Completion  (SC)  】:     複数の⽂文章から似ている⽂文章を選び出せ. •  データセット:Yahoo!  Answers  (question  answer  system) -‐‑‒  All  :  142,627  pairs  (question,  answer) -‐‑‒  Best  answers  から⻑⾧長さ5~∼50でフィルタリングして、60,564  pairsの    positive  pairs  を取得. -‐‑‒  Best  answerをクエリと⾒見見なして,  Lucene  を⽤用いてanswer全体から1000    のanswerを抽出.その中からランダムに4  sample  を取り出して  negative      pairs  を構築. •  Train  /  Valid  /  Test    -‐‑‒    8  :  1  :  1 •  データセット:Reuters  (⽂文章に対して、8~∼28  wordsで⻑⾧長さ調整.) -‐‑‒  データは、(1  pos,  4  neg)の5つの選択肢. -‐‑‒  negative  exampleは、cosine  similarity  に基づいてサンプリング抽出.
  21. 12:  Experiments SX ソニー製のcyber  shotのメモリスティックエラー、どうやったら 直せるの? SY + メモリスティックをフォーマッティングしてみては。後、出⼒力力さ れているエラーってどんなのよ? SY -‐‑‒ Stack  underflowエラーなんて聞いた事無いよ,  overflowエラー ならあるけども.Overflowなら、バーチャルメモリ⾷食べ過ぎなん だと思う.
  22. 13:  Experiments Baselines  :  9  models Models Detail Repr Random ランダムに(ランキング結果を)出⼒力力. -‐‑‒ BM25 IR分野で良良く知られており、強いベースラインモデル. -‐‑‒ ARC-‐‑‒Ⅰ CNNモデルでsentence-‐‑‒representationを学習し、MLPでマッチン グスコアを出⼒力力. one ARC-‐‑‒Ⅱ 局所的なマッチングパターンを抽出し、それらを多層CNNで統合し てマッチングスコアを出⼒力力. multi CNTN ARC-‐‑‒Ⅰモデルをベースにしているが、マッチングスコアの算出部を MLPの代わりに、tensor  layerに変更更. one LSTM-‐‑‒RNN Sentence-‐‑‒representationの獲得にLSTMを⽤用いて、マッチングスコ アの算出にcosine  similarityを使⽤用. one RAE Multiuple  levelsʼ’  representationの獲得に、RNN-‐‑‒Autoencoderを 利利⽤用. multi DeepMatch LDAによって獲得されたトピックから、multiple  granularityを考慮. (複数の粒粒度度のrepresentationのことを述べている気がする・・・) multi MultiGranCNN CNNモデルでword,  phrase,  sentenceレベルのrepsentationを獲得. それら全てのrepresentationの相互作⽤用に基づいてマッチングスコ アを算出. multi
  23. 14:  Experiments Parameter  Settings Word  Embeddings (pre-‐‑‒training) [SC]  :  Wiki-‐‑‒Corpus  でword2vec. [QA]  :  QAデータセット  でword2vec. Word-‐‑‒Emb  dims 全ての実験で  50dims  に設定. Hidden  dims 全ての実験で  50dims  に設定. Batch  Size 全ての実験で  128-‐‑‒size  に設定. Initial  Weight   Scale  and  Settings 全ての訓練パラメータは、値域:(-‐‑‒0.1,  0.1)  の⼀一様分布 から、ランダムに設定. Initial  Learning   Rate [SC]  :  0.3 [QA]  :  0.03 Optimize  Method AdaGrad
  24. N : SY +(i) : r(⋅): Testセットの ranking-‐‑‒listの数. i番⽬目のranking-‐‑‒listの positive  sentence. ranking-‐‑‒list内の Sentenceのrank. 15:  Experiments Evaluation  Metrics 以上のことから、   Precision  at  1  (P@1)  と  Mean  Reciprocal  Rank  (MRR)  を⽤用いる. •  SCタスク/QAタスクは、rankingタスクとしてみなせる. •  出⼒力力は、与えられた選択肢に対するマッチングスコアの降降順リスト. •  Goalは、negative選択肢よりもpositive選択肢のランクを⾼高くすること.
  25. 16:  Experiments (1)  Analysis  of  Difference  Pooling  Parameters •  k=5以上では性能改善に限界が⾒見見える.以後、k=5で実験を⾏行行った. •  LSTMとBi-‐‑‒LSTMとも⽐比較した.提案法のMV-‐‑‒LSTMが良良い結果となった. •  LSTMでは、last-‐‑‒positionのみ考慮.Bi-‐‑‒LSTMではfirst-‐‑‒/last-‐‑‒positionを 考慮.⼀一⽅方で、MV-‐‑‒LSTMはそれぞれのpositionを考慮できる.
  26. 17:  Experiments (1)  Analysis  of  Difference  Pooling  Parameters -‐‑‒  k=5  の  matching  position  について、 1.   (“memory”,  ”memory”,  0.84) 2.   (“error”,  ”error”,  0.81) 3.   (“stick”,  ”stick”,    0.76) 4.   (“stick”,  ”memory”,  0.65) 5.   (“memory”,  ”stick”,  0.63) 提案法は、キーワードに注⽬目出来ている. さらに、”stick”と”memory”の関係も マッチング時に重要な役割を果たしてい ることが⾒見見てとれる.提案法は重要なn-‐‑‒ gramのマッチングパターンを抽出できて いる.
  27. 18:  Experiments (2)  Performance  Comparison 【4つの分析】 1.  RAEとDeepMatchを除いた End-‐‑‒to-‐‑‒EndのDeepNNモデル は全て、BM25に勝っている. 2.  提案法3種類は、single   representationタイプのARC-‐‑‒ Ⅰ,  CNTN,  LSTM-‐‑‒RNNに対し て良良い結果を⽰示している. 3.  提案法3種類は、multiple   granularityタイプのRAE,   DeepMatch,  ARC-‐‑‒Ⅱ,   MultiGranCNNに対しても、良良 い結果を⽰示している. 4.  提案法はTensorタイプが最 も良良い結果となった.これは、 複雑な相互作⽤用をうまく捉え られるからだ.
  28. 19:  Experiments (2)  Performance  Comparison SX インターネットで無料料でロシア語学べる良良いサイトある? SY + 無料料で⾔言語を学べるとも思えないけど、基本的な語彙くらいなら学べるか もね.そういうことでは(インターネットは)素晴らしいと思う. SY -‐‑‒ Yahoo!のホームページに、無料料で提供されているゲームのリストが⾒見見れ るよ.もしくは、www.iwin.comで無料料のゲームをダウンロードできる.
  29. 20:  Experiments (2)  Performance  Comparison 単語  “free”  の意味について SY + About  free  language  resources SY -‐‑‒ About  free  games 提案法は、Multiple  positionによって、”free”  の違いを考慮できる.
  30. 21:  Experiments (2)  Performance  Comparison [Hu  et  al,  2014]の研究で は、MRRの検証は無かった. QAタスクの場合に⽐比べて、 Deep  Model⼿手法は、⼤大幅に 数値の改善が⾒見見られる. 提案法は、ベースラインに⽐比 べて、P@1で11.4%改善. -‐‑‒  Sentence  Completion
  31. 1.   Introduction 2.   Our  Approach 3.   Experiments 4.   Conclusion
  32. 本研究では、 •  2つの⽂文章のマッチングを考える際に、⽂文章の複数の位置に対する representationを考慮する優れた深層学習アーキテクト:MV-‐‑‒LSTMを 提案. Advantage  )  局所的な情報を抽出しつつ⽂文脈情報をより良良く取り扱うことがで き、これらによって、⽂文章全体から重要なキーワードを判別する. 22:  Conclusion •  MV-‐‑‒LSTMは、single-‐‑‒representationタイプの全ての⼿手法に対して優れ た結果を⽰示した. これは、マッチングを考える上で最も良良い位置が必ずしもいつも⽂文章の最後の 位置とは限らないことを⽰示している.(=LSTMで最終位置のHidden-‐‑‒stateを使 えばベストとは限らない.)したがって、複数の位置を考慮できる仕組みが必要 である. •  MV-‐‑‒LSTMは、Multiple-‐‑‒granularity  methodよりも良良い結果を⽰示した. ⽂文章全体のcontextをより良良く扱えるようにmulti-‐‑‒granularityを考慮する必要が ある.
  33. END
Publicité