SlideShare une entreprise Scribd logo
1  sur  20
Télécharger pour lire hors ligne
Copyright@2014 NTT DATA Mathematical Systems Inc. 
Skip-gram について 
1 
2014/11/21 
白川 達也 sirakawa@msi.co.jp
Copyright@2014 NTT DATA Mathematical Systems Inc. 
2 
king – man + woman = ?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
3 
king – man + woman = queen …ですよね?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
4 
walked – walk + run = ?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
5 
walked – walk + run = ran …ですよね?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
6 
france – paris + japan = ?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
7 
france – paris + japan = tokyo …ですよね?
Copyright@2014 NTT DATA Mathematical Systems Inc. 
8 
人間はアナロジー関係を適切にとらえる ことができます。 Skip-gramに代表される言語モデルの進化 により、このようなアナロジー関係をあ る程度機械的に計算できるようになりま した。
Copyright@2014 NTT DATA Mathematical Systems Inc. 
9 
Skip-gram モデル(+ Noise Sampling) 
•T. Mikolov+, “Distributed Representations of Words and Phrases and their Compositionality”, NIPS2013 
•Skip-gram モデルは、単語に同じ次元のベクタを割り当てます(語 푢 に 割り当てられたベクタが 휃푢 )。 
•コーパスで共起する単語ペア(푢,푣∼푃퐷)は、ベクタの内積が大きく なるようにします。 
•コーパスの푘倍の個数の単語ペア(푢,푣∼푃푁)を別途作成しますが、 それらの単語ペアのベクタの内積は小さくなるようにします。 
Skip-gram (+NS) maximize 휃 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃), 푤ℎ푒푟푒 푃푢,푣;휃=휎휃푢⋅휃푣 푠푖푔푚표푖푑 = 11+exp (−휃푢⋅휃푣)
Copyright@2014 NTT DATA Mathematical Systems Inc. 
10 
共起しやすい ⇔ベクタの内積が大きい 
mathematics 
physics 
tokyo
Copyright@2014 NTT DATA Mathematical Systems Inc. 
11 
Linear Regularity 
•Skip-gram で学習された単語のベクタ( 휃푢 )を使って、意味や統語の 線形計算ができることが実験的に確認されています。 
T. Mikolov +, “Linguistic Regularities in Continuous Space Word Representations”, NAACL HLT 2013
Copyright@2014 NTT DATA Mathematical Systems Inc. 
12 
T. Mikolov +, “ Distributed Representations of Words and Phrases and their Compositionality”, NIPS 2013
Copyright@2014 NTT DATA Mathematical Systems Inc. 
13 
T. Mikolov +, “Efficient Estimation of Word Representations in Vector Space”, ICLR2013
Copyright@2014 NTT DATA Mathematical Systems Inc. 
14 
語の相対的な位置関係は言語非依存(?) 
T. Mikolov +, “Exploiting Similarities among Languages for Machine Translation”, arXiv:1309.4168
Copyright@2014 NTT DATA Mathematical Systems Inc. 
15 
Skip-gram = PMI行列の行列分解 
•最近、푘=1,푃푁(푢,푣)=푃퐷푢푃퐷푣 (ユニグラム分布の積)ととった Skip-gram モデルは PMI 行列の行列分解に相当することが示されました。 
•O. Levy+, “Neural Word Embedding as Implecit Matrix Factorization”, NIPS2014 
Skip-gram (+NS) maximize 휃 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃), 푤ℎ푒푟푒 푃푢,푣;휃=휎휃푢⋅휃푣 푠푖푔푚표푖푑 = 11+exp (−휃푢⋅휃푣) 
푢 
푣 
Pointwise Mutual Information 
푃푀퐼푢,푣=log 푃퐷푢,푣 푃퐷푢푃퐷(푣) 
PMI行列
Copyright@2014 NTT DATA Mathematical Systems Inc. 
16 
証明 
下記の証明は、本質的には次の論文によるものです。 I. J. Goodfellow+, “Generative Adversarial Networks”, NIPS2014 
(証明) 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃) = 푃퐷푢,푣log푃푢,푣;휃+푘푃푁푢,푣log1−푃푢,푣;휃 푑(푢,푣) ですが、푎log푥+푏log1−푥は푥=푎/(푎+푏)で唯一の最大値をとるので、 퐿(휃) を最大化すると、下記へ収束します。 푃푢,푣;휃= 푃퐷푢,푣 푃퐷푢,푣+푘푃푁(푢,푣) =휎−log 푃퐷푢,푣 푘푃푁푢,푣 푃푢,푣;휃=휎휃푢⋅휃푣と比べると 휃푢⋅휃푣=log 푃퐷푢,푣 푘푃푁푢,푣 
を得ます。よって、푘=1,푃푁=푃퐷푢푃퐷푣 の場合には、PMI行列の分解 になります。
Copyright@2014 NTT DATA Mathematical Systems Inc. 
17 
Linear Regularity 再考 
•PMI行列の分解であることを想定すると、 のような関係は、任意の語 푣 にたいして、 という関係を与えることがわかります。実際、 푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛 ⇒푣 ⋅푘푖푛푔−푚푎푛−푞푢푒푒푛+푤표푚푎푛=0 ⇒푃푀퐼푣,푘푖푛푔−푃푀퐼푣,푚푎푛−푃푀퐼푣,푞푢푒푒푛+푃푀퐼푣,푤표푚푎푛=0 ここで最後の式の左辺を計算すると log 푄푘푖푛푔푣 푄푚푎푛푣 ∕ 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 =0 なので、上記関係を得ます。 
푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛 (휃푘푖푛푔を푘푖푛푔などと略記) 
푄푘푖푛푔푣 푄푚푎푛푣 = 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 푤ℎ푒푟푒 푄푢푣= 푃푢푣 푃푢
Copyright@2014 NTT DATA Mathematical Systems Inc. 
18 
푄푢|푣 
푢 
푣 
푝(푢,푣) 
푝(푢) 
計 
푢 
푣 
푄푢푣 
1 
計 
行を正規化 
同時確率 
푄푢|푣 は同時確率 푝(푢,푣) 
から語自身の出現確率 푝(푢)の効果を除いたもの
Copyright@2014 NTT DATA Mathematical Systems Inc. 
19 
Linear Regularity 
푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛⇒ 푄푘푖푛푔푣 푄푚푎푛푣 = 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 
1 
1 
1 
1 
퐴 
푎 
퐵 
푏 
푣 
ここの比が常に等しい 
풌풊풏품∶ 풎풂풏=풒풖풆풆풏∶ 풘풐풎풂풏 
king, man, queen, woman 固有の出 現確率を無視すると、どんな語に対 しても、その語の周辺に「 man に比 べて king がどれくらい出やすいか」 は、「woman に比べて queen がど れくらい出やすいか」と等しい。
Copyright@2014 NTT DATA Mathematical Systems Inc. 
20 
逆向きは成り立つか 
•左側の等式が成り立っていれば、すべての語 푣 にたいして 푃푀퐼푣,퐴−푃푀퐼푣,푎−푃푀퐼푣,퐵+푃푀퐼푣,푏=0 が成り立つので、 푣 ⋅퐴 −푎 −퐵+푏=0 푓표푟 푎푙푙 푣 となります。このことから、 푣 全体が張る空間が豊かな場合(詳しく は、この空間の次元が分散表現の次元と一致する場合)、 퐴 −푎 =퐵−푏 となることも導かれます。 
QAvQav= 푄퐵푣 푄푏푣 ⇒퐴 −푎 =퐵−푏 ?

Contenu connexe

Tendances

バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践智之 村上
 
[DL輪読会]Attentive neural processes
[DL輪読会]Attentive neural processes[DL輪読会]Attentive neural processes
[DL輪読会]Attentive neural processesDeep Learning JP
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)ryotat
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?Fumihiko Takahashi
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験克海 納谷
 
自然言語処理による議論マイニング
自然言語処理による議論マイニング自然言語処理による議論マイニング
自然言語処理による議論マイニングNaoaki Okazaki
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究Satoshi Hara
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...Deep Learning JP
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )cvpaper. challenge
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Yuya Unno
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
[DL Hacks]Visdomを使ったデータ可視化
[DL Hacks]Visdomを使ったデータ可視化[DL Hacks]Visdomを使ったデータ可視化
[DL Hacks]Visdomを使ったデータ可視化Deep Learning JP
 

Tendances (20)

バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践バンディットアルゴリズム入門と実践
バンディットアルゴリズム入門と実践
 
[DL輪読会]Attentive neural processes
[DL輪読会]Attentive neural processes[DL輪読会]Attentive neural processes
[DL輪読会]Attentive neural processes
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
自然言語処理による議論マイニング
自然言語処理による議論マイニング自然言語処理による議論マイニング
自然言語処理による議論マイニング
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
[DL Hacks]Visdomを使ったデータ可視化
[DL Hacks]Visdomを使ったデータ可視化[DL Hacks]Visdomを使ったデータ可視化
[DL Hacks]Visdomを使ったデータ可視化
 

Similaire à Skip gram shirakawa_20141121

ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~Kensuke Otsuki
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchiAkira Taniguchi
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Yuya Unno
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Yuya Unno
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論Naoaki Okazaki
 
ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」Masaru Nagaku
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開Seiya Tokui
 
Interop2017
Interop2017Interop2017
Interop2017tak9029
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理Preferred Networks
 
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) gsis gsis
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングYuya Unno
 
マイクロサービス時代の動画配信基Ruby×go=∞
マイクロサービス時代の動画配信基Ruby×go=∞マイクロサービス時代の動画配信基Ruby×go=∞
マイクロサービス時代の動画配信基Ruby×go=∞DMM.com
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法Shunji Umetani
 
第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...
第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...
第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...Shinagawa Seitaro
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPTnlab_utokyo
 

Similaire à Skip gram shirakawa_20141121 (20)

ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~ディープラーニング入門 ~ 画像処理・自然言語処理について ~
ディープラーニング入門 ~ 画像処理・自然言語処理について ~
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi
 
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
 
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論
 
ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」ワークショップ「ゲーム開発チームにおけるパトレット」
ワークショップ「ゲーム開発チームにおけるパトレット」
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
 
Interop2017
Interop2017Interop2017
Interop2017
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
OCRは古い技術
OCRは古い技術OCRは古い技術
OCRは古い技術
 
Deep Learningと自然言語処理
Deep Learningと自然言語処理Deep Learningと自然言語処理
Deep Learningと自然言語処理
 
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授)
 
TDA やら Night!!
TDA やら Night!!TDA やら Night!!
TDA やら Night!!
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 
マイクロサービス時代の動画配信基Ruby×go=∞
マイクロサービス時代の動画配信基Ruby×go=∞マイクロサービス時代の動画配信基Ruby×go=∞
マイクロサービス時代の動画配信基Ruby×go=∞
 
comp_pfiseminar
comp_pfiseminarcomp_pfiseminar
comp_pfiseminar
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法
 
第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...
第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...
第7回 NIPS+読み会・関西 Generating Informative and Diverse Conversational Responses v...
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
 

Skip gram shirakawa_20141121

  • 1. Copyright@2014 NTT DATA Mathematical Systems Inc. Skip-gram について 1 2014/11/21 白川 達也 sirakawa@msi.co.jp
  • 2. Copyright@2014 NTT DATA Mathematical Systems Inc. 2 king – man + woman = ?
  • 3. Copyright@2014 NTT DATA Mathematical Systems Inc. 3 king – man + woman = queen …ですよね?
  • 4. Copyright@2014 NTT DATA Mathematical Systems Inc. 4 walked – walk + run = ?
  • 5. Copyright@2014 NTT DATA Mathematical Systems Inc. 5 walked – walk + run = ran …ですよね?
  • 6. Copyright@2014 NTT DATA Mathematical Systems Inc. 6 france – paris + japan = ?
  • 7. Copyright@2014 NTT DATA Mathematical Systems Inc. 7 france – paris + japan = tokyo …ですよね?
  • 8. Copyright@2014 NTT DATA Mathematical Systems Inc. 8 人間はアナロジー関係を適切にとらえる ことができます。 Skip-gramに代表される言語モデルの進化 により、このようなアナロジー関係をあ る程度機械的に計算できるようになりま した。
  • 9. Copyright@2014 NTT DATA Mathematical Systems Inc. 9 Skip-gram モデル(+ Noise Sampling) •T. Mikolov+, “Distributed Representations of Words and Phrases and their Compositionality”, NIPS2013 •Skip-gram モデルは、単語に同じ次元のベクタを割り当てます(語 푢 に 割り当てられたベクタが 휃푢 )。 •コーパスで共起する単語ペア(푢,푣∼푃퐷)は、ベクタの内積が大きく なるようにします。 •コーパスの푘倍の個数の単語ペア(푢,푣∼푃푁)を別途作成しますが、 それらの単語ペアのベクタの内積は小さくなるようにします。 Skip-gram (+NS) maximize 휃 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃), 푤ℎ푒푟푒 푃푢,푣;휃=휎휃푢⋅휃푣 푠푖푔푚표푖푑 = 11+exp (−휃푢⋅휃푣)
  • 10. Copyright@2014 NTT DATA Mathematical Systems Inc. 10 共起しやすい ⇔ベクタの内積が大きい mathematics physics tokyo
  • 11. Copyright@2014 NTT DATA Mathematical Systems Inc. 11 Linear Regularity •Skip-gram で学習された単語のベクタ( 휃푢 )を使って、意味や統語の 線形計算ができることが実験的に確認されています。 T. Mikolov +, “Linguistic Regularities in Continuous Space Word Representations”, NAACL HLT 2013
  • 12. Copyright@2014 NTT DATA Mathematical Systems Inc. 12 T. Mikolov +, “ Distributed Representations of Words and Phrases and their Compositionality”, NIPS 2013
  • 13. Copyright@2014 NTT DATA Mathematical Systems Inc. 13 T. Mikolov +, “Efficient Estimation of Word Representations in Vector Space”, ICLR2013
  • 14. Copyright@2014 NTT DATA Mathematical Systems Inc. 14 語の相対的な位置関係は言語非依存(?) T. Mikolov +, “Exploiting Similarities among Languages for Machine Translation”, arXiv:1309.4168
  • 15. Copyright@2014 NTT DATA Mathematical Systems Inc. 15 Skip-gram = PMI行列の行列分解 •最近、푘=1,푃푁(푢,푣)=푃퐷푢푃퐷푣 (ユニグラム分布の積)ととった Skip-gram モデルは PMI 行列の行列分解に相当することが示されました。 •O. Levy+, “Neural Word Embedding as Implecit Matrix Factorization”, NIPS2014 Skip-gram (+NS) maximize 휃 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃), 푤ℎ푒푟푒 푃푢,푣;휃=휎휃푢⋅휃푣 푠푖푔푚표푖푑 = 11+exp (−휃푢⋅휃푣) 푢 푣 Pointwise Mutual Information 푃푀퐼푢,푣=log 푃퐷푢,푣 푃퐷푢푃퐷(푣) PMI行列
  • 16. Copyright@2014 NTT DATA Mathematical Systems Inc. 16 証明 下記の証明は、本質的には次の論文によるものです。 I. J. Goodfellow+, “Generative Adversarial Networks”, NIPS2014 (証明) 퐿(휃)=피푢,푣∼푃퐷[log푃(푢,푣;휃)]+푘피푢,푣∼푃푁log(1−푃(푢,푣;휃) = 푃퐷푢,푣log푃푢,푣;휃+푘푃푁푢,푣log1−푃푢,푣;휃 푑(푢,푣) ですが、푎log푥+푏log1−푥は푥=푎/(푎+푏)で唯一の最大値をとるので、 퐿(휃) を最大化すると、下記へ収束します。 푃푢,푣;휃= 푃퐷푢,푣 푃퐷푢,푣+푘푃푁(푢,푣) =휎−log 푃퐷푢,푣 푘푃푁푢,푣 푃푢,푣;휃=휎휃푢⋅휃푣と比べると 휃푢⋅휃푣=log 푃퐷푢,푣 푘푃푁푢,푣 を得ます。よって、푘=1,푃푁=푃퐷푢푃퐷푣 の場合には、PMI行列の分解 になります。
  • 17. Copyright@2014 NTT DATA Mathematical Systems Inc. 17 Linear Regularity 再考 •PMI行列の分解であることを想定すると、 のような関係は、任意の語 푣 にたいして、 という関係を与えることがわかります。実際、 푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛 ⇒푣 ⋅푘푖푛푔−푚푎푛−푞푢푒푒푛+푤표푚푎푛=0 ⇒푃푀퐼푣,푘푖푛푔−푃푀퐼푣,푚푎푛−푃푀퐼푣,푞푢푒푒푛+푃푀퐼푣,푤표푚푎푛=0 ここで最後の式の左辺を計算すると log 푄푘푖푛푔푣 푄푚푎푛푣 ∕ 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 =0 なので、上記関係を得ます。 푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛 (휃푘푖푛푔を푘푖푛푔などと略記) 푄푘푖푛푔푣 푄푚푎푛푣 = 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 푤ℎ푒푟푒 푄푢푣= 푃푢푣 푃푢
  • 18. Copyright@2014 NTT DATA Mathematical Systems Inc. 18 푄푢|푣 푢 푣 푝(푢,푣) 푝(푢) 計 푢 푣 푄푢푣 1 計 行を正規化 同時確率 푄푢|푣 は同時確率 푝(푢,푣) から語自身の出現確率 푝(푢)の効果を除いたもの
  • 19. Copyright@2014 NTT DATA Mathematical Systems Inc. 19 Linear Regularity 푘푖푛푔−푚푎푛=푞푢푒푒푛−푤표푚푎푛⇒ 푄푘푖푛푔푣 푄푚푎푛푣 = 푄푞푢푒푒푛푣 푄푤표푚푎푛푣 1 1 1 1 퐴 푎 퐵 푏 푣 ここの比が常に等しい 풌풊풏품∶ 풎풂풏=풒풖풆풆풏∶ 풘풐풎풂풏 king, man, queen, woman 固有の出 現確率を無視すると、どんな語に対 しても、その語の周辺に「 man に比 べて king がどれくらい出やすいか」 は、「woman に比べて queen がど れくらい出やすいか」と等しい。
  • 20. Copyright@2014 NTT DATA Mathematical Systems Inc. 20 逆向きは成り立つか •左側の等式が成り立っていれば、すべての語 푣 にたいして 푃푀퐼푣,퐴−푃푀퐼푣,푎−푃푀퐼푣,퐵+푃푀퐼푣,푏=0 が成り立つので、 푣 ⋅퐴 −푎 −퐵+푏=0 푓표푟 푎푙푙 푣 となります。このことから、 푣 全体が張る空間が豊かな場合(詳しく は、この空間の次元が分散表現の次元と一致する場合)、 퐴 −푎 =퐵−푏 となることも導かれます。 QAvQav= 푄퐵푣 푄푏푣 ⇒퐴 −푎 =퐵−푏 ?