Publicité
Publicité

Contenu connexe

Présentations pour vous(20)

Similaire à Skip gram shirakawa_20141121(20)

Publicité

Skip gram shirakawa_20141121

  1. Copyright@2014 NTT DATA Mathematical Systems Inc. Skip-gram について 1 2014/11/21 白川 達也 sirakawa@msi.co.jp
  2. Copyright@2014 NTT DATA Mathematical Systems Inc. 2 king – man + woman = ?
  3. Copyright@2014 NTT DATA Mathematical Systems Inc. 3 king – man + woman = queen …ですよね?
  4. Copyright@2014 NTT DATA Mathematical Systems Inc. 4 walked – walk + run = ?
  5. Copyright@2014 NTT DATA Mathematical Systems Inc. 5 walked – walk + run = ran …ですよね?
  6. Copyright@2014 NTT DATA Mathematical Systems Inc. 6 france – paris + japan = ?
  7. Copyright@2014 NTT DATA Mathematical Systems Inc. 7 france – paris + japan = tokyo …ですよね?
  8. Copyright@2014 NTT DATA Mathematical Systems Inc. 8 人間はアナロジー関係を適切にとらえる ことができます。 Skip-gramに代表される言語モデルの進化 により、このようなアナロジー関係をあ る程度機械的に計算できるようになりま した。
  9. Copyright@2014 NTT DATA Mathematical Systems Inc. 9 Skip-gram モデル(+ Noise Sampling) •T. Mikolov+, “Distributed Representations of Words and Phrases and their Compositionality”, NIPS2013 •Skip-gram モデルは、単語に同じ次元のベクタを割り当てます(語 푢 に 割り当てられたベクタが 휃푢 )。 •コーパスで共起する単語ペア(푢,푣∼푃퐷)は、ベクタの内積が大きく なるようにします。 •コーパスの푘倍の個数の単語ペア(푢,푣∼푃푁)を別途作成しますが、 それらの単語ペアのベクタの内積は小さくなるようにします。 Skip-gram (+NS) maximize 휃 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃), 푤ℎ푒푟푒 푃푢,푣;휃=휎휃푢⋅휃푣 푠푖푔푚표푖푑 = 11+exp (−휃푢⋅휃푣)
  10. Copyright@2014 NTT DATA Mathematical Systems Inc. 10 共起しやすい ⇔ベクタの内積が大きい mathematics physics tokyo
  11. Copyright@2014 NTT DATA Mathematical Systems Inc. 11 Linear Regularity •Skip-gram で学習された単語のベクタ( 휃푢 )を使って、意味や統語の 線形計算ができることが実験的に確認されています。 T. Mikolov +, “Linguistic Regularities in Continuous Space Word Representations”, NAACL HLT 2013
  12. Copyright@2014 NTT DATA Mathematical Systems Inc. 12 T. Mikolov +, “ Distributed Representations of Words and Phrases and their Compositionality”, NIPS 2013
  13. Copyright@2014 NTT DATA Mathematical Systems Inc. 13 T. Mikolov +, “Efficient Estimation of Word Representations in Vector Space”, ICLR2013
  14. Copyright@2014 NTT DATA Mathematical Systems Inc. 14 語の相対的な位置関係は言語非依存(?) T. Mikolov +, “Exploiting Similarities among Languages for Machine Translation”, arXiv:1309.4168
  15. Copyright@2014 NTT DATA Mathematical Systems Inc. 15 Skip-gram = PMI行列の行列分解 •最近、푘=1,푃푁(푢,푣)=푃퐷푢푃퐷푣 (ユニグラム分布の積)ととった Skip-gram モデルは PMI 行列の行列分解に相当することが示されました。 •O. Levy+, “Neural Word Embedding as Implecit Matrix Factorization”, NIPS2014 Skip-gram (+NS) maximize 휃 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃), 푤ℎ푒푟푒 푃푢,푣;휃=휎휃푢⋅휃푣 푠푖푔푚표푖푑 = 11+exp (−휃푢⋅휃푣) 푢 푣 Pointwise Mutual Information 푃푀퐼푢,푣=log 푃퐷푢,푣 푃퐷푢푃퐷(푣) PMI行列
  16. Copyright@2014 NTT DATA Mathematical Systems Inc. 16 証明 下記の証明は、本質的には次の論文によるものです。 I. J. Goodfellow+, “Generative Adversarial Networks”, NIPS2014 (証明) 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃) = 푃퐷푢,푣log푃푢,푣;휃+푘푃푁푢,푣log1−푃푢,푣;휃 푑(푢,푣) ですが、푎log푥+푏log1−푥は푥=푎/(푎+푏)で唯一の最大値をとるので、 퐿(휃) を最大化すると、下記へ収束します。 푃푢,푣;휃= 푃퐷푢,푣 푃퐷푢,푣+푘푃푁(푢,푣) =휎−log 푃퐷푢,푣 푘푃푁푢,푣 푃푢,푣;휃=휎휃푢⋅휃푣と比べると 휃푢⋅휃푣=log 푃퐷푢,푣 푘푃푁푢,푣 を得ます。よって、푘=1,푃푁=푃퐷푢푃퐷푣 の場合には、PMI行列の分解 になります。
  17. Copyright@2014 NTT DATA Mathematical Systems Inc. 17 Linear Regularity 再考 •PMI行列の分解であることを想定すると、 のような関係は、任意の語 푣 にたいして、 という関係を与えることがわかります。実際、 푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛 ⇒푣 ⋅푘푖푛푔−푚푎푛−푞푢푒푒푛+푤표푚푎푛=0 ⇒푃푀퐼푣,푘푖푛푔−푃푀퐼푣,푚푎푛−푃푀퐼푣,푞푢푒푒푛+푃푀퐼푣,푤표푚푎푛=0 ここで最後の式の左辺を計算すると log 푄푘푖푛푔푣 푄푚푎푛푣 ∕ 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 =0 なので、上記関係を得ます。 푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛 (휃푘푖푛푔を푘푖푛푔などと略記) 푄푘푖푛푔푣 푄푚푎푛푣 = 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 푤ℎ푒푟푒 푄푢푣= 푃푢푣 푃푢
  18. Copyright@2014 NTT DATA Mathematical Systems Inc. 18 푄푢|푣 푢 푣 푝(푢,푣) 푝(푢) 計 푢 푣 푄푢푣 1 計 行を正規化 同時確率 푄푢|푣 は同時確率 푝(푢,푣) から語自身の出現確率 푝(푢)の効果を除いたもの
  19. Copyright@2014 NTT DATA Mathematical Systems Inc. 19 Linear Regularity 푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛⇒ 푄푘푖푛푔푣 푄푚푎푛푣 = 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 1 1 1 1 퐴 푎 퐵 푏 푣 ここの比が常に等しい 풌풊풏품∶ 풎풂풏=풒풖풆풆풏∶ 풘풐풎풂풏 king, man, queen, woman 固有の出 現確率を無視すると、どんな語に対 しても、その語の周辺に「 man に比 べて king がどれくらい出やすいか」 は、「woman に比べて queen がど れくらい出やすいか」と等しい。
  20. Copyright@2014 NTT DATA Mathematical Systems Inc. 20 逆向きは成り立つか •左側の等式が成り立っていれば、すべての語 푣 にたいして 푃푀퐼푣,퐴−푃푀퐼푣,푎−푃푀퐼푣,퐵+푃푀퐼푣,푏=0 が成り立つので、 푣 ⋅퐴 −푎 −퐵+푏=0 푓표푟 푎푙푙 푣 となります。このことから、 푣 全体が張る空間が豊かな場合(詳しく は、この空間の次元が分散表現の次元と一致する場合)、 퐴 −푎 =퐵−푏 となることも導かれます。 QAvQav= 푄퐵푣 푄푏푣 ⇒퐴 −푎 =퐵−푏 ?
Publicité