Publicité
Publicité

Contenu connexe

Présentations pour vous(20)

Publicité

Dernier(20)

Distributed Representations of Sentences and Documents

  1. Distributed Representations of Sentences and Documents DL勉強会 2014/12/01 小町研究室B4 堺澤勇也
  2. 動機  多くの機会学習アルゴリズムは固定長の素性ベク トル表現を要求する  最も一般的なはBOWである(Vocab次元)  簡単で頑健なのでよく使われる  しかし、BOWは二つの問題点がある  語順が失われる  単語の意味を無視する  A is better than B とB is better than A は同じになる
  3. 提案手法: Paragraph Vector  文・パラグラフ・ドキュメントのような可変長の テキストの一部から固定長の素性表現を学習する 教師なし学習アルゴリズム  各ドキュメントを密ベクトルで表現する
  4.  Word Vector Algorithms  PV-DM: A Distributed Memory model  PV-DBOW: Distributed Bag Of Words 提案手法 word2vec
  5. Learning Vector Representation of Words W:文書単語行列 コンテキスト中の他の単語が与えられたとき、次にくる単語を予測1 – of – V のベクトル→
  6. 学習 下の式が最大になるようにトレーニングされる この予測タスクは、マルチクラス分類を通して行われるので、 softmax関数を使って下の式を得ることが出来る yは下の式で計算することが出来る パラメータb、U がSGDによって学習される h はWから抽出された単語ベクトルの連結もしくは平均から構築される 学習には確率的勾配法を使う
  7. 効果  似た意味を持つ単語は、ベクトル空間上で近い位 置に置かれ、そうじゃない場合は遠い位置に置か れるようになる  “powerful”と“strong”は近い距離にくる  “powerful”と“Paris”は遠い距離にいる
  8. PV-DM: A Distributed Memory model 1 – of – V のベクトル→ CBOWのように、パラグラフの情報と単語周辺(この図では 単語の前のみ)から文脈を推定させて分散表現を学習する
  9. PV-DVによって作られた分散表 現  sumやaverageではなくconcatenateなので語順が保 たれる  BOWでなくなってしまう語順の情報(この論文で は繰り返し批判)を持つことを可能にした  図ではaverageのことも書かれているが、この実験 ではconcatenateのみ考えている
  10. PV-DM: A Distributed Memory model Concatenate のみを扱っている
  11.  Paragraph ID とParagraph Matrix を使うと。。。  現在のコンテキストから失われた情報を表現できる  Paragraph のトピックを保持出来る → memory model  それにより、予測性能がより良くなる  新しいParagraphが出てきたら、他のパラメーター は固定して学習する
  12. PV-DBOW: Distributed Bag Of Words Skip gramのように、パラグラフの情報から文脈中の 単語を推定出来るように学習する
  13.  Task: 感情分析 実験1  映画のレビュー文章を見て、ポジティブかネガティ ブかを判定する  Dataset: Stanford sentiment treebank  11855件の映画のレビュー文章が1文づつ与えられる  各文は0.0 (very negative) ~ 1.0 (very positive)の間でラ ベル付けされている
  14. Protocol PV - DM PV -DBOW Logistic regression 400 dim 400 dim Positive or Negative concatenate Window = 8 学習データのパラグラフは8544個
  15. 実験結果 BOW or BOn-gram RNN(構文解析を必要とする手法提案手法 提案手法は性能がよく、構文解析なども必要としない!!
  16.  Task: 感情分析 実験2  映画のレビュー文章を見て、ポジティブかネガティ ブかを判定する  Dataset: IMDB  100000件の映画のレビュー文章が複数文で与えられ る  各文はnegative、positive でラベル付けされている  実験1は入力が1文に対して、実験2は複数文
  17. Protocol PV - DM PV -DBOW neural network 400 dim 400 dim Positive or Negative concatenate Window = 10 Logistic regression 間にニューラルネットが挟んである理由 →線形ロジスティクス分類より非線形(ニューラルネット)を使った方がいい結果が出NNは隠れ層が50ノードあることは書いてあるがそれ以上については言及されていな
  18. 実験結果 RBM NBSVM 提案手法 ↑PV-DM + PV-DBOW PV-DM only: 7.63%
  19.  Task: 情報検索 実験3  同じクエリで与えられた二つのスニペットペアに対 して、三つ目のスニペットが同じクエリから与えら れたかどうか判別する  Dataset: snippet  検索エンジンで1000000の有名なクエリから与えられ る上位10個のsnippet  snippet: 検索エンジンによる検索結果の一部として表 示される、Webページの要約文のこと
  20. sample Paragraph 1: calls from ( 000 ) 000 - 0000 . 3913 calls reported from this number . according to 4 re- ports the identity of this caller is american airlines . Paragraph 2: do you want to find out who called you from +1 000 - 000 - 0000 , +1 0000000000 or ( 000 ) 000 - 0000 ? see reports and share information you have about this caller Paragraph 3: allina health clinic patients for your convenience , you can pay your allina health clinic bill online . pay your clinic bill now , question and answers... 同じクエリ ランダム
  21. 実験結果
  22. 時間コスト  Expensive ではある  ただ、テストの時には並列処理可能で16 コアで 25000段落(平均230単語)が30分だった  学習のときの時間については言及なし
  23. まとめ  BOWは語順の情報が失われてしまう  提案手法は語順の情報が保持されるのでBOWより 優れてる!!  PV-DMだけでも良い結果得られるけど、PV-DBOW を加えることでより良い結果になった

Notes de l'éditeur

  1. この論文では、”powerful”と”strong”・”Pairs”は等しく遠いと説明されている 本来なら”powerful”と”strong”は近い距離にいてほしい
  2. Word vector の考えに共感してそれをパラグラフを使って出来るように拡張 これも予測タスクに対して使えるようにしている
  3. Word vector の考えに共感してそれをパラグラフを使って出来るように拡張 これも予測タスクに対して使えるようにしている
Publicité