Copyright@2014 NTT DATA Mathematical Systems Inc.
8
人間はアナロジー関係を適切にとらえる ことができます。 Skip-gramに代表される言語モデルの進化 により、このようなアナロジー関係をあ る程度機械的に計算できるようになりま した。
Copyright@2014 NTT DATA Mathematical Systems Inc.
9
Skip-gram モデル(+ Noise Sampling)
•T. Mikolov+, “Distributed Representations of Words and Phrases and their Compositionality”, NIPS2013
•Skip-gram モデルは、単語に同じ次元のベクタを割り当てます(語 푢 に 割り当てられたベクタが 휃푢 )。
•コーパスで共起する単語ペア(푢,푣∼푃퐷)は、ベクタの内積が大きく なるようにします。
•コーパスの푘倍の個数の単語ペア(푢,푣∼푃푁)を別途作成しますが、 それらの単語ペアのベクタの内積は小さくなるようにします。
Skip-gram (+NS) maximize 휃 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃), 푤ℎ푒푟푒 푃푢,푣;휃=휎휃푢⋅휃푣 푠푖푔푚표푖푑 = 11+exp (−휃푢⋅휃푣)
Copyright@2014 NTT DATA Mathematical Systems Inc.
10
共起しやすい ⇔ベクタの内積が大きい
mathematics
physics
tokyo
Copyright@2014 NTT DATA Mathematical Systems Inc.
11
Linear Regularity
•Skip-gram で学習された単語のベクタ( 휃푢 )を使って、意味や統語の 線形計算ができることが実験的に確認されています。
T. Mikolov +, “Linguistic Regularities in Continuous Space Word Representations”, NAACL HLT 2013
Copyright@2014 NTT DATA Mathematical Systems Inc.
12
T. Mikolov +, “ Distributed Representations of Words and Phrases and their Compositionality”, NIPS 2013
Copyright@2014 NTT DATA Mathematical Systems Inc.
13
T. Mikolov +, “Efficient Estimation of Word Representations in Vector Space”, ICLR2013
Copyright@2014 NTT DATA Mathematical Systems Inc.
14
語の相対的な位置関係は言語非依存(?)
T. Mikolov +, “Exploiting Similarities among Languages for Machine Translation”, arXiv:1309.4168
Copyright@2014 NTT DATA Mathematical Systems Inc.
15
Skip-gram = PMI行列の行列分解
•最近、푘=1,푃푁(푢,푣)=푃퐷푢푃퐷푣 (ユニグラム分布の積)ととった Skip-gram モデルは PMI 行列の行列分解に相当することが示されました。
•O. Levy+, “Neural Word Embedding as Implecit Matrix Factorization”, NIPS2014
Skip-gram (+NS) maximize 휃 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃), 푤ℎ푒푟푒 푃푢,푣;휃=휎휃푢⋅휃푣 푠푖푔푚표푖푑 = 11+exp (−휃푢⋅휃푣)
푢
푣
Pointwise Mutual Information
푃푀퐼푢,푣=log 푃퐷푢,푣 푃퐷푢푃퐷(푣)
PMI行列
Copyright@2014 NTT DATA Mathematical Systems Inc.
16
証明
下記の証明は、本質的には次の論文によるものです。 I. J. Goodfellow+, “Generative Adversarial Networks”, NIPS2014
(証明) 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃) = 푃퐷푢,푣log푃푢,푣;휃+푘푃푁푢,푣log1−푃푢,푣;휃 푑(푢,푣) ですが、푎log푥+푏log1−푥は푥=푎/(푎+푏)で唯一の最大値をとるので、 퐿(휃) を最大化すると、下記へ収束します。 푃푢,푣;휃= 푃퐷푢,푣 푃퐷푢,푣+푘푃푁(푢,푣) =휎−log 푃퐷푢,푣 푘푃푁푢,푣 푃푢,푣;휃=휎휃푢⋅휃푣と比べると 휃푢⋅휃푣=log 푃퐷푢,푣 푘푃푁푢,푣
を得ます。よって、푘=1,푃푁=푃퐷푢푃퐷푣 の場合には、PMI行列の分解 になります。
Copyright@2014 NTT DATA Mathematical Systems Inc.
17
Linear Regularity 再考
•PMI行列の分解であることを想定すると、 のような関係は、任意の語 푣 にたいして、 という関係を与えることがわかります。実際、 푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛 ⇒푣 ⋅푘푖푛푔−푚푎푛−푞푢푒푒푛+푤표푚푎푛=0 ⇒푃푀퐼푣,푘푖푛푔−푃푀퐼푣,푚푎푛−푃푀퐼푣,푞푢푒푒푛+푃푀퐼푣,푤표푚푎푛=0 ここで最後の式の左辺を計算すると log 푄푘푖푛푔푣 푄푚푎푛푣 ∕ 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 =0 なので、上記関係を得ます。
푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛 (휃푘푖푛푔を푘푖푛푔などと略記)
푄푘푖푛푔푣 푄푚푎푛푣 = 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 푤ℎ푒푟푒 푄푢푣= 푃푢푣 푃푢
Copyright@2014 NTT DATA Mathematical Systems Inc.
18
푄푢|푣
푢
푣
푝(푢,푣)
푝(푢)
計
푢
푣
푄푢푣
1
計
行を正規化
同時確率
푄푢|푣 は同時確率 푝(푢,푣)
から語自身の出現確率 푝(푢)の効果を除いたもの
Copyright@2014 NTT DATA Mathematical Systems Inc.
19
Linear Regularity
푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛⇒ 푄푘푖푛푔푣 푄푚푎푛푣 = 푄푞푢푒푒푛푣 푄푤표푚푎푛푣
1
1
1
1
퐴
푎
퐵
푏
푣
ここの比が常に等しい
풌풊풏품∶ 풎풂풏=풒풖풆풆풏∶ 풘풐풎풂풏
king, man, queen, woman 固有の出 現確率を無視すると、どんな語に対 しても、その語の周辺に「 man に比 べて king がどれくらい出やすいか」 は、「woman に比べて queen がど れくらい出やすいか」と等しい。