SlideShare une entreprise Scribd logo
1  sur  21
Télécharger pour lire hors ligne
Word2vecの並列実行時の
学習速度の改善
岡崎 直観1,2 乾 健太郎1,3
1 東北大学大学院情報科学研究科
2 JST戦略的創造研究推進事業「さきがけ」
3 JST戦略的創造研究推進事業「CREST」
2014-07-04 Word2vecの並列実行時の学習速度の改善 1
word2vec祭り キタ━━゚+.ヽ(≧▽≦)ノ.+゚━━ ッ
2014-07-04 Word2vecの並列実行時の学習速度の改善 2
http://www.oreilly.co.jp/books/9784873116839/
http://naoyat.hatenablog.jp/entry/2013/09/11/002941
ACL2014でもword2vec祭り
• J. Andreas and D. Klein: How much do word
embeddings encode about syntax?
• M. Bansal, K. Gimpel, and K. Livescu: Tailoring
Continuous Word Representations for Dependency
Parsing
• M. Baroni, G Dinu, and G Kruszewski: Don’t count,
predict! A systematic comparison of context-counting vs.
context-predicting semantic vectors
• O. Levy and Y. Goldberg: Dependency-Based Word
Embeddings
• R. Tian, Y. Miyao, and T. Matsuzaki: Logical Inference
on Dependency-based Compositional Semantics
• M. Yu and M. Dredze: Improving Lexical Embeddings
with Semantic Knowledge
• …
2014-07-04 Word2vecの並列実行時の学習速度の改善 3
なぜそんなに大人気?
• オープンソースの実装が公開されている
• ツールが使いやすい・試しやすい
• 大規模なデータに対してもスケールする
• 確立された理論に基づくオンライン学習
• 確率的勾配降下法,誤差逆伝搬法
• ベクトル和による単語の意味の構成性
• 𝑣𝑣 𝐾𝐾𝐾𝐾𝐾𝐾 𝐾𝐾 − 𝑣𝑣 𝑚𝑚𝑚𝑚𝑚𝑚 + 𝑣𝑣(𝑤𝑤𝑤𝑤𝑤𝑤𝑤𝑤𝑤𝑤) ≈ 𝑣𝑣(𝑄𝑄𝑄𝑄𝑄𝑄𝑄𝑄𝑄𝑄)
• 複数のプロセッサによる並列処理
• 1週間かかる学習が1日以内になると助かる
2014-07-04 Word2vecの並列実行時の学習速度の改善 4
オンライン学習の並列処理とは?
Iterative Parameter Mixture (McDonald+, 10) の場合
2014-07-04 Word2vecの並列実行時の学習速度の改善 5
1 1 2 2 3 3 4 4
5 5 6 6 7 7 8 8
9 9 10 10 11 11 12 12
13 13 14 14 15 15 16 16
3*
1*
2*
4*
スレッド#1: モデル(ベクトル)
スレッド#2: モデル(ベクトル)
スレッド#3: モデル(ベクトル)
スレッド#4: モデル(ベクトル)
学習データ
+
学習事例を
4グループに分割
並列実行数を
4とする場合
勾配計算
モデル更新
全体のモデル(ベクトル)全体のモデル更新
word2vecは非同期パラメータ更新
(Bengio+, 03)
2014-07-04 Word2vecの並列実行時の学習速度の改善 6
1 1 2 2 3 3 4 4
5 5 6 6 7 7 8 8
9 9 10 10 11 11 12 12
13 13 14 14 15 15 16 16
スレッド#1
スレッド#2
スレッド#3
スレッド#4
学習データ
学習事例を
4グループに分割
並列実行数を
4とする場合
勾配計算
モデル更新
全体のモデル(ベクトル)全体のモデル更新
省メモリ
スレッド毎に
モデルを持たない
高速
スレッド間で
同期を取らない
容易
スレッド間の
同期処理が不要
不正確
複数のスレッドが
モデルを同時に
更新すると,
更新内容が消失
する恐れがある
気にしない
どうせ確率的勾配
元々ノイズだらけ
実際に並列処理をさせてみると
2014-07-04 Word2vecの並列実行時の学習速度の改善 7
iイ彡 _=三三三f ヽ
!イ 彡彡´_ -_=={ 二三三ニニニニヽ
fイ 彡彡ィ 彡イ/ ィ_‐- 、  ̄ ̄ ヽ し ま
f彡イ彡彡ィ/ f _ ̄ ヾユ fヱ‐ォ て る
f/ミヽ======<|-'いシ lr=〈fラ/ !フ い で
イイレ、´彡f ヽ 二 _rソ 弋_ { .リ な 成
fノ /) 彡! ィ ノ ̄l .い 長
トヾ__ら 'イf u /_ヽ,,テtt,仏 ! :
|l|ヽ ー '/ rfイf〃イ川トリ / .:
r!lト、{'ー‐ ヽ ´ ヾミ、 / :
/ \ゞ ヽ ヽ ヽ /
./ \ \ ヽ /
/〈 \ ノ
-‐ ´ ヽ ヽ \\ \ 人
並列実行数と速度向上の関係
試しに40スレッドで実行するとCPU利用率は約4000%になる(指示通り)
CPUを使っているのに速くならない
謎
本発表の概要
• word2vecの学習を並列化しても速くならない
原因を解明
• word2vecの理論を復習
• 並列処理が遅くなる原因を推測
• その原因を解消するアルゴリズムを提案する
• 提案手法の効果を実験的に示す
• 本研究の実装(パッチ)を以下のURLで公開
• http://www.chokkan.org/software/word2vec-multi
2014-07-04 Word2vecの並列実行時の学習速度の改善 8
word2vecの確率モデル
(log-bilinearモデル,Skip-gramモデル)
2014-07-04 Word2vecの並列実行時の学習速度の改善 9
𝑤𝑤𝑡𝑡−2
𝑤𝑤𝑡𝑡
・
・
・
・
𝑤𝑤𝑡𝑡−1
𝑤𝑤𝑡𝑡+1
𝑤𝑤𝑡𝑡+2
単語ベクトル(𝑚𝑚次元)
(これを単語ベクトルとする)
単語予測ベクトル(𝑚𝑚次元)
(学習後こちらは捨てる)
𝒗𝒗𝑤𝑤𝑡𝑡
コーパス中の全単語
�
𝑡𝑡=1
𝑇𝑇
�
−𝑐𝑐≤𝑗𝑗≤𝑐𝑐,𝑗𝑗≠0
log 𝑃𝑃(𝑤𝑤𝑡𝑡+𝑗𝑗|𝑤𝑤𝑡𝑡)
𝒖𝒖 𝑤𝑤𝑡𝑡−2
𝒖𝒖 𝑤𝑤𝑡𝑡−1
𝒖𝒖 𝑤𝑤𝑡𝑡+1
𝒖𝒖 𝑤𝑤𝑡𝑡+2
各文に対し次式を最大化するモデルを求める
Skip-gram(中央の単語𝑤𝑤𝑡𝑡から周辺語𝑤𝑤𝑡𝑡+𝑗𝑗を予測)
文中の単語数
文脈の範囲
𝑃𝑃(𝑤𝑤𝑡𝑡+𝑗𝑗|𝑤𝑤𝑡𝑡)はlog-bilinearモデルとする
𝑃𝑃(𝑤𝑤𝑡𝑡+𝑗𝑗|𝑤𝑤𝑡𝑡) =
exp(𝒗𝒗 𝑤𝑤𝑡𝑡
⋅ 𝒖𝒖 𝑤𝑤𝑡𝑡+𝑗𝑗
)
∑𝑤𝑤′ exp(𝒗𝒗 𝑤𝑤𝑡𝑡
⋅ 𝒖𝒖𝑤𝑤𝑤)
すべての単語に関する
内積のexp和
in
held
Paris
France
on
,
…
…
log-bilinearモデルの分母の計算は重たい
(数千万の単語に対して内積とexp和の計算)
高速化のアイディア①
負例サンプリング
• 分母: すべての単語 → サンプリングした𝑛𝑛単語
• モデル: log-bilinear → ロジスティック回帰の積
• 例えば,𝑤𝑤𝑡𝑡 = 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃, 𝑤𝑤𝑡𝑡+1 = 𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹の時
• ParisからFranceを予測するモデルに更新したい
• 𝑃𝑃 𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 → 1
• 𝑃𝑃 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 → 0, 𝑃𝑃 ℎ𝑜𝑜𝑜𝑜𝑜𝑜 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 → 0, 𝑃𝑃 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 → 0
• つまり,コーパス中のすべての単語をラベルとして,
one-vs-𝑛𝑛-restの学習をやっていることと等価
2014-07-04 Word2vecの並列実行時の学習速度の改善 10
𝑃𝑃 𝑤𝑤𝑡𝑡+𝑗𝑗 𝑤𝑤𝑡𝑡 =
exp 𝒗𝒗𝑤𝑤𝑡𝑡
⋅ 𝒖𝒖 𝑤𝑤𝑡𝑡+𝑗𝑗
∑𝑤𝑤′ exp(𝒗𝒗𝑤𝑤𝑡𝑡
⋅ 𝒖𝒖 𝑤𝑤′)
≈ 𝜎𝜎(𝒗𝒗𝑤𝑤𝑡𝑡
⋅ 𝒖𝒖 𝑤𝑤𝑡𝑡+𝑗𝑗
) � �
𝑥𝑥𝑖𝑖∈Sample(𝑤𝑤𝑡𝑡+𝑗𝑗)
𝜎𝜎(−𝒗𝒗 𝑤𝑤𝑡𝑡
⋅ 𝒖𝒖𝑥𝑥𝑖𝑖
)
これらの単語をコーパス中のユニグラム分布に従ってサンプリング
高速化のアイディア②
階層的ソフトマックス
• 大元のアイディアは単語の意味クラ
スを用いた最大エントロピー言語モデ
ルの学習の高速化 (Goodman, 01)
• 意味クラスを表す木に全単語を格納
• 階層構造としてWordNetを用いたり,
単語のクラスタリングで求める
• ある単語wの予測確率を,階層構造
上の分枝の予測確率の積で表す
• 分枝の予測確率はロジスティック回帰
• 葉の確率は正規化されている
• 尤度の計算量は𝑂𝑂(log |𝑉𝑉|)に削減
2014-07-04 Word2vecの並列実行時の学習速度の改善 11
Root
具体物 抽象物
生物 無生物
動物 植物
猫犬
𝑃𝑃 𝑤𝑤𝑡𝑡+𝑗𝑗 𝑤𝑤𝑡𝑡 =
exp 𝒗𝒗𝑤𝑤𝑡𝑡
⋅ 𝒖𝒖 𝑤𝑤𝑡𝑡+𝑗𝑗
∑ 𝑤𝑤′ exp(𝒗𝒗𝑤𝑤𝑡𝑡
⋅ 𝒖𝒖 𝑤𝑤′)
≈ �
(𝑥𝑥𝑖𝑖,𝑦𝑦𝑖𝑖)∈Path(𝑤𝑤𝑡𝑡+𝑗𝑗)
𝜎𝜎(𝑦𝑦𝑖𝑖 𝒗𝒗𝑤𝑤𝑡𝑡
⋅ 𝒖𝒖𝑥𝑥𝑖𝑖
)
-1
+1
+1
+1
-1
-1
-1 +1
Path(猫) = {
(Root, -1), (具体物, -1),
(生物, -1), (動物, +1),
}
高速化のアイディア②’
階層構造をハフマン木で近似
2014-07-04 Word2vecの並列実行時の学習速度の改善 12
単語 頻度 コード
東京 7111
大宮 4010
上野 4000
仙台 31101
宇都宮 21010
小山 21000
盛岡 20111
郡山 20010
福島 21011
新青森 20110
那須塩原 111001
古川 100110
一関 110011
八戸 111000
北上 100111
新白河 110010
東京大宮 7
仙台 3
古川 1 一関 1 八戸 1北上 1
小山 2郡山 2 福島 2盛岡 2 宇都
宮
2
那須
塩原
1
新
青森
2
新
白川
1
4上野 4
2
4
2 2
54
8
4
8
4
8
16 20
36
12
1
4
9
5
10 11 12
13 14
15
6 7 8
2 3
𝑃𝑃 八戸 = 𝑃𝑃 +1|@15 𝑃𝑃 +1|@14 𝑃𝑃 −1|@12 𝑃𝑃 −1|@8 𝑃𝑃(−1|@3)
階層構造をハフマン木で近似
単語の意味を反映し
てないが,特殊なサン
プリングと見なせる
単語の頻度分布から
容易に作成可能
並列処理で何故速くならないのか?
• インテルの資料を読んでみる
• Intel Guide for Developing Multithreaded Applications
• 注意点がいくつか挙げられている
• 並列化しにくいループの書き方
• プロセッサの負荷バランスの崩れ
• ロックやクリティカルセクションによる同期
• メモリ確保(malloc)によるロック
• メモリ帯域の圧迫
• キャッシュの偽共有
2014-07-04 Word2vecの並列実行時の学習速度の改善 13
word2vecで
は該当せず
キャッシュの偽共有(false sharing)
• プロセッサのキャッシュの一貫性が保てず,
キャッシュミスが発生してしまう状況
• Modified/Exclusive/Shared/Invalid (MESI)
2014-07-04 Word2vecの並列実行時の学習速度の改善 14
プロセッサの
キャッシュ
メインメモリ
ストア ロードしたい
階層的ソフトマックスにおける偽共有
2014-07-04 Word2vecの並列実行時の学習速度の改善 15
偽共有への対処法
スレッド間のパラメータを共有しない
2014-07-04 Word2vecの並列実行時の学習速度の改善 16
1 1 2 2 3 3 4 4
5 5 6 6 7 7 8 8
9 9 10 10 11 11 12 12
13 13 14 14 15 15 16 16
スレッド#1: モデル(ベクトル)
スレッド#2: モデル(ベクトル)
スレッド#3: モデル(ベクトル)
スレッド#4: モデル(ベクトル)
学習データ
+
学習事例を
4グループに分割
並列実行数を
4とする場合
勾配計算
モデル更新
全体のモデル(ベクトル)
各
ス
レ
ッ
ド
が
学
習
し
た
ベ
ク
ト
ル
の
意
味
的
な
性
質
が
一
致
す
る
保
証
が
な
い
た
め
,
単
純
に
和
を
取
る
こ
と
が
で
き
な
い
偽共有への対処法: 提案手法
ヤバいベクトルの更新頻度を下げる
2014-07-04 Word2vecの並列実行時の学習速度の改善 17
たまに(k単語を学習
する毎に)同期を取る ヤバくないベクトルへの読み書きは従来通り
隠れベクトル
ヤバイ(頻繁に更新される) ヤバくない
• 隠れベクトル𝒖𝒖を分類
• ヤバい: 頻繁に更新される
• 階層的ソフトマックス: 根に近い
• 負例サンプリング: 頻出語
• ヤバくない: それ以外
• ヤバくないベクトルへの読み書きは通常通り
• ヤバいベクトル
• 共有メモリとローカルの両方で管理
• 読み込み: ローカルのベクトルを読み込む
• 書き込み: ローカルのベクトルの値を更新する
と共に,変化分を記録
• 各スレッドがk単語の学習を完了する度に,共
有メモリ上のベクトルの値と同期をとる
• ベクトル𝒖𝒖の共有メモリ上での偽共有を軽減
実験
• 学習データ
• ukWaC (Baroni+, 09): 2,324,509,927トークン
• 学習方法
• モデル: 300次元のSkip-gramモデル
• 単語: 学習データ中の1,943,050種類の単語
• パラメータ: ウィンドウ幅=5, 10-5サブ・サンプリング
• 学習環境
• 6 コアのAMD Opteron 2435 (2.6GHz) × 2
• 64GBのメインメモリ
• 評価データ
• アナロジータスク (Mikolov+, 13)
2014-07-04 Word2vecの並列実行時の学習速度の改善 18
学習速度の評価
2014-07-04 Word2vecの並列実行時の学習速度の改善 19
階層的ソフトマックス
では速度向上が顕著
負例サンプリングでは
速度向上が見られない
階層的ソフトマックスでは
偽共有が頻発していた
得られた単語ベクトルの質の評価
手法 平均 分散
オリジナル (HS) 0.521 0.00418
提案手法 (HS; k=100) 0.520 0.00276
提案手法 (HS; k=1000) 0.521 0.00443
オリジナル (NEG-5) 0.549 0.00224
提案手法 (NEG-5; k=100) 0.551 0.00332
2014-07-04 Word2vecの並列実行時の学習速度の改善 20
アナロジータスクの正解率の平均と分散
(スレッド数を1, 2, 4, 6, 8, 12として学習した
モデルを用いた時の正解率の平均と分散)
• 提案手法で更新をサボっても単語ベクトルの質は落ちない
• どれも分散が小さいことから,非同期更新でも支障はない
結論と今後の展望
• 階層的ソフトマックスは偽共有を起こしやすく,
非同期の並列処理でも遅くなる
• 提案手法は単語ベクトルの質を落とすことなく,
並列処理の実行効率を改善できた
• 本研究の適用範囲
• word2vec を拡張するような研究
• 木構造上でソフトマックスを行うような研究
• 非同期パラメータ更新を行う他の学習アルゴリズム
• 条件付き確率場 (Gimpel+, 10) など
2014-07-04 Word2vecの並列実行時の学習速度の改善 21

Contenu connexe

Tendances

【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用Tomonari Masada
 
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」Hitomi Yanaka
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Keigo Nishida
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions Deep Learning JP
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...Deep Learning JP
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf幸太朗 岩澤
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic DatasetsDeep Learning JP
 
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3までYahoo!デベロッパーネットワーク
 

Tendances (20)

【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
トピックモデルの基礎と応用
トピックモデルの基礎と応用トピックモデルの基礎と応用
トピックモデルの基礎と応用
 
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
 

En vedette

Modeling missing data in distant supervision for information extraction (Ritt...
Modeling missing data in distant supervision for information extraction (Ritt...Modeling missing data in distant supervision for information extraction (Ritt...
Modeling missing data in distant supervision for information extraction (Ritt...Naoaki Okazaki
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有Naoaki Okazaki
 
Visualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPVisualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPNaoaki Okazaki
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Naoaki Okazaki
 
Learning to automatically solve algebra word problems
Learning to automatically solve algebra word problemsLearning to automatically solve algebra word problems
Learning to automatically solve algebra word problemsNaoaki Okazaki
 
Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...Naoaki Okazaki
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習Naoaki Okazaki
 
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展Naoaki Okazaki
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論Naoaki Okazaki
 
言語と画像の表現学習
言語と画像の表現学習言語と画像の表現学習
言語と画像の表現学習Yuki Noguchi
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理Yuya Unno
 

En vedette (11)

Modeling missing data in distant supervision for information extraction (Ritt...
Modeling missing data in distant supervision for information extraction (Ritt...Modeling missing data in distant supervision for information extraction (Ritt...
Modeling missing data in distant supervision for information extraction (Ritt...
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
 
Visualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLPVisualizing and understanding neural models in NLP
Visualizing and understanding neural models in NLP
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
 
Learning to automatically solve algebra word problems
Learning to automatically solve algebra word problemsLearning to automatically solve algebra word problems
Learning to automatically solve algebra word problems
 
Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...Supervised Learning of Universal Sentence Representations from Natural Langua...
Supervised Learning of Universal Sentence Representations from Natural Langua...
 
単語・句の分散表現の学習
単語・句の分散表現の学習単語・句の分散表現の学習
単語・句の分散表現の学習
 
単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展単語の分散表現と構成性の計算モデルの発展
単語の分散表現と構成性の計算モデルの発展
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論
 
言語と画像の表現学習
言語と画像の表現学習言語と画像の表現学習
言語と画像の表現学習
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
 

Similaire à Word2vecの並列実行時の学習速度の改善

Interop2017
Interop2017Interop2017
Interop2017tak9029
 
皆さん!ふくてんが来ましたよ!!
皆さん!ふくてんが来ましたよ!!皆さん!ふくてんが来ましたよ!!
皆さん!ふくてんが来ましたよ!!ru pic
 
20170708 Ebeanのご紹介(O/Rマッパー勉強会 in 大都会)
20170708 Ebeanのご紹介(O/Rマッパー勉強会 in 大都会)20170708 Ebeanのご紹介(O/Rマッパー勉強会 in 大都会)
20170708 Ebeanのご紹介(O/Rマッパー勉強会 in 大都会)kunst1080
 
Miyazaki流sql
Miyazaki流sqlMiyazaki流sql
Miyazaki流sqlhafuu
 
Seas で語られたこととは?
Seas で語られたこととは?Seas で語られたこととは?
Seas で語られたこととは?Masayuki Ozawa
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 Yuki Arase
 
Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?harmonylab
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築Tomoyuki Kajiwara
 
第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料直久 住川
 
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2Masayoshi Kondo
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Tatsuya Tojima
 
20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(PowerPoint)
20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(PowerPoint)20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(PowerPoint)
20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(PowerPoint)kulibrarians
 
音声認識超比較、各社コグニティブサービス全部入り
音声認識超比較、各社コグニティブサービス全部入り音声認識超比較、各社コグニティブサービス全部入り
音声認識超比較、各社コグニティブサービス全部入りtakuino
 
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 Yuki Arase
 

Similaire à Word2vecの並列実行時の学習速度の改善 (20)

Interop2017
Interop2017Interop2017
Interop2017
 
皆さん!ふくてんが来ましたよ!!
皆さん!ふくてんが来ましたよ!!皆さん!ふくてんが来ましたよ!!
皆さん!ふくてんが来ましたよ!!
 
20170708 Ebeanのご紹介(O/Rマッパー勉強会 in 大都会)
20170708 Ebeanのご紹介(O/Rマッパー勉強会 in 大都会)20170708 Ebeanのご紹介(O/Rマッパー勉強会 in 大都会)
20170708 Ebeanのご紹介(O/Rマッパー勉強会 in 大都会)
 
Frequency with nltk
Frequency with nltkFrequency with nltk
Frequency with nltk
 
Miyazaki流sql
Miyazaki流sqlMiyazaki流sql
Miyazaki流sql
 
Seas で語られたこととは?
Seas で語られたこととは?Seas で語られたこととは?
Seas で語られたこととは?
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
Gorinphp0729
Gorinphp0729Gorinphp0729
Gorinphp0729
 
Gorinphp0729
Gorinphp0729Gorinphp0729
Gorinphp0729
 
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?
 
日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築日本語の語彙平易化システムおよび評価セットの構築
日本語の語彙平易化システムおよび評価セットの構築
 
第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料第9回ACRiウェビナー_日立/島田様ご講演資料
第9回ACRiウェビナー_日立/島田様ご講演資料
 
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
Kisonokiso.pptx
Kisonokiso.pptxKisonokiso.pptx
Kisonokiso.pptx
 
20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(PowerPoint)
20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(PowerPoint)20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(PowerPoint)
20020228 ku-librarians勉強会 #28 : マークアップ言語を用いた目録データの変換について(PowerPoint)
 
音声認識超比較、各社コグニティブサービス全部入り
音声認識超比較、各社コグニティブサービス全部入り音声認識超比較、各社コグニティブサービス全部入り
音声認識超比較、各社コグニティブサービス全部入り
 
第39回「Windows Server 2003 EOSに備えよう -SQL Serverはどうする?-」(2014/12/18 on しすなま!)
第39回「Windows Server 2003 EOSに備えよう -SQL Serverはどうする?-」(2014/12/18 on しすなま!)第39回「Windows Server 2003 EOSに備えよう -SQL Serverはどうする?-」(2014/12/18 on しすなま!)
第39回「Windows Server 2003 EOSに備えよう -SQL Serverはどうする?-」(2014/12/18 on しすなま!)
 
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 

Word2vecの並列実行時の学習速度の改善