SlideShare une entreprise Scribd logo
1  sur  34
Télécharger pour lire hors ligne
Reusing Weights in Subword-aware
Neural Language Models
Zhenisbek Assylbekov, Rustem Takhanov
(NAACL-HLT 2018)
紹介者 : 小町研 B4 本間広樹 2018/07/19
概要
• Subword-aware のニューラル言語モデルにおいて,
Subword embedding や他の重みを再利用するいくつ
かの方法を提案
• 音節認識モデルと形態素認識モデルの性能を向上させ,
モデルサイズを大幅に縮小
• 最良のものは単語レベルのモデルに対して20%~87%
少ないパラメータ数で複数言語に渡り大きなマージン
で良い結果を出した
はじめに
2つのクエスチョン
• Embeddingや他のパラメータをSubword-awareの
ニューラル言語モデルにおいて再利用することは可能
か?
• それは言語モデル化に有益か?
関連研究
Subword-awareのNLMに関して様々な研究がされている
しかし
Subword-aware または Subword-level 言語モデルでパラメー
タを再利用することについての研究はあまりされていない
他の研究との違い
• 出力での重みの再利用
• モデルサイズ縮小とパフォーマンスの両方を追求
• 異なるSubword単位を試し,小,中規模のデータセットの評価
Recurrent Neural Language Model
• :単語の有限語彙(単語はインデックスに変換済みと仮定)
• :単語の入力 embedding 行列
• 単語 の系列に対するword embedding に基づ
いて,典型的な単語レベルRNN言語モデルは
に従って状態
の系列を生成
すなわち、w番目の行(wと表記)が単語w∈Wの埋め込みに対応する行列
最後の状態 hk は全系列 w1:k に関する情報を含むと仮定され,確率分布(式2)に
従う系列の次の単語 wk+1 を予測するために使用される
は出力 embedding 行列, はバイアス項
はRNNの状態サイズ
Subword-based word embeddings
• :Subword の有限語彙(インデックスに変換済みと仮定)
• :Subword の入力 embedding 行列
• 任意の単語 はその Subword
の系列であるため,対応する Subword ベクトル
の系列として表せる
• パラメータ を持つ Subword ベースの word embedding
モデル は Subword ベクトル(3) の系列から単語ベク
トル を構成
• は embedding モデルが単語ベクトルを構成する方法に対応
すなわち単なる embedding w の代わりに x をRNNLM(1)に流し込む
例えば,KimらのCharCNNモデルにおいて,Θin は畳み込み層,highway層の重み
次のセクションで subword-aware RNNLM において,
subword embeddings および他のパラメータ を
再利用するための簡単な技術について説明する
Reusing word embeddings
• 入力単語および出力単語の embedding の結びつけ
の前提で
• この正規化技法は単語レベルの言語モデル化には有効
• しかし,入力では subword embeddings を受け取り,
出力ではword embeddings を返すため,
subword-aware 言語モデルに直接適用できない
Reusing Weights
• を subword の出力 embedding 行列とし,word
embedding 行列 の代わりに, を利用するよ
うに softmax 層 (2) を修正する
• アイデアはかなり簡単!
• 新しい embedding 行列を構築するために embedding
モデル (4) を再利用
そして,softmax 層 (2)で の代わりに を使用
この修正を subword-based softmax と呼ぶ
Reusing Weights
subwaord-based softmax
を持つ subword-aware
RNNLM の全体的なアー
キテクチャ
このモデルでは embedding
と 重みを再利用するために
いくつかのオプションがある。
次から説明していく。
Reusing Weights Option 1
Subword embeddings も embedding モデルの重みも再
利用しない
これは大規模な語彙(800Kトークン)を持つ巨大なデー
タセット(1Bトークン)で学習された大規模モデルのパ
ラメータの総数を減らすことができる
しかし,main experiments で使用するより小さな語彙
(10-30Kトークン)を持つより小さなデータセット(1-
2Mトークン)の大幅なパラメータの減少は期待してい
ない
Reusing Weights Option 2, 3
Subword embedding の再利用 (RE) は (5) で
を設定することで可能
のモデルのサイズを大幅に減少
Embedding モデルの重みの再利用 (RW) は
を設定することで可能
上のオプションと違い のモデルのサイズ
を大幅に減少
Reusing Weights Option 4
Subword embeddings と embedding モデルの重みの両
方の再利用 (RE+RW) は (5) で と
を同時に設定することで可能
これにより subword-aware モデルで学習可能なパラ
メータ数が大幅に削減される
ここでは入力と出力の両方で全く同じ単語表現を使用す
るため,このオプションは純粋な単語レベルの言語モデ
ルで plain word embeddings を再利用することに対応し
ている
実験設定 :Data sets
学習,評価:PTB, WikiText-2
分割
PTB : Training (0-20), Validation (21-22), Test (23-24)
WikiText-2 はPTB の代替
実験設定 :Subword-based embedding モデル
言語モデル化に効果的であることが示されている表現モ
デルを利用
• CharCNN (2016)
• SylConcat (2017)
• MorphSum (2014)
実験設定 :Word-level RNNLM
Inanらの研究 (2017) と直接比較できるように
2つの LSTM セルのスタックを用いる
実験設定 :Hyperparameters
単語レベル RNNLM の状態数 dLM :
200 (small models), 650 (mediumsized model)
以下,括弧外の値は small models に対応し,括弧内の値は
mediumsized model に対応 small (mediumsized)
• CharCNN:Kimの研究と同様のハイパーパラメータを使用
• SylConcat:dS = 50 (200), dHW = 200 (800)
• MorphSum:dS = dHW = 200 (650)
実験設定 :Optimization
モデルの学習はコーパス に対する負の対数尤度を
最小化する
学習率が最初に以下のように設定された SGD を用いて35
タイムステップを誤差逆伝播し,減衰させていく。
・1.0 : small 単語レベルモデル
・0.5 : small, medium CharCNN, medium SylConcat (SS, SS+RW) モデル
・0.7 : 他
バッチサイズ:20
エポック数:70
ドロップアウト(小,中):
PTB(0.3, 0.5),WT2(0.2, 0.4)
パラメータの初期化
単語レベルLSTMの忘却バイアス:1
small [-0.1, 0.1], medium [-0.05, 0.05]
highway 層の変換バイアス:約 -2
実験設定:音節化と形態素分割
音節化:
Liang の ハイフネーションアルゴリズム (1983)
形態素分割:
教師なしの形態学的分割ツール Morfessor 2.0 (2013)
デフォルト設定を使用
結果
提案する各オプションが言語モデル化タスクにおいてど
の程度役立つかを調べるために,各 subword-aware モ
デルに対する4つの変更(再利用なし,RE,RW,
RE+RW)と,そのオリジナルおよび単語レベルのベー
スラインとを比較評価
negative と positive 両方の所見を次に要約する
結果-Negative
性
能
低
下
結果-Positive
性
能
向
上
分析 - CharCNN は表層形に偏っている
仮設:CharCNN が対応する重みの恩恵を受けない理由
は,character embedding に対する CNN が semantics よ
りも表層形に適応するように学習する,過度に柔軟なモ
デルだから
検証:英語のPTB語彙からいくつかの単語を選び,
medium-sized モデル(普通の softmax 層)が入力で作
成したコサイン類似度が最近傍を考える
分析 - CharCNN は表層形に偏っている
CharCNN モデルは,SylConcat と MorphSum よりも 入力の表層形に偏っている
CharCNN が softmax embedding 行列を生成するために再利用されるとき,この
偏りは出力 embedding にも伝搬する
分析 - Tying weights bottom-up
Subword embeddings を結
び付けずに重みを結ぶ
(RW) と,重みと
embedding の両方を結ぶ
(RE+RW) よりも性能が悪
化することがわかる
Subword-aware
embedding モデルが使用
される前に subword
embedding lookup が実行
されるから
Layers should be tied consecutively bottom-up
分析 -入力と出力の embeddings の違い
2番目の highway 層で再利用するよりも1番目の highway 層で再利用するほうが良
い性能が得られることがわかる
単語 embeddigns を入出力でわずかに変えること,すなわち入力時にRNNLM,出
力時に softmax を必要とするために特殊化することが良くしていることを意味する
分析 -入力と出力の embeddings の違い
間接的に差異を検証
word embeddings の次元が入出力で異なるかどうかテスト(主成分分析)
• 単語レベルモデル,CharCNN モデル,SylConcat モデルでは入出力の
embedding の次元が異なる
• MorphSumモデルではそれほど重要でない
分析 -CharCNN は MorphSum よりも一般的
大きい分割単位は小さい分割単位よりもうまく機能する
と予測したが,小さい分割単位は大きい分割単位よりも
よく一般化されている
目に見えない言葉で目に見えないテキストをモデル化す
る能力であれば,実際には,character-aware モデルは
音節または形態素-aware モデルより優れているかもし
れない
分析 -CharCNN は MorphSum よりも一般的
検証:CharCNN と MorphSum を PTB で学習し、
Wikitext-2 のテストセット(245Kの単語、10Kの単語タ
イプ)で評価
結果:実際にCharCNN は目に見えないテキストの OOVs
が少ないため,MorphSumよりも一般化されている
分析 -英語以外のデータの性能
MorphSum+RE+RW は Wordのベースライン+REを凌駕
この利点がより豊かな形態を有する非英語言語に及ぶか
どうかを見たい
検証:5つの言語の small (1M のトークン) と medium
(17M-51M のトークン) データの両方のモデルの評価を
行う
分析 -英語以外のデータの性能
結果:単語レベルのモデルに対する形態素-aware モデ
ルの利点は,英語以外のデータではさらに顕著
分析 -LSTM を AWD-LSTM に置き換える
検証:AWD-LSTM-MorphSum + RE + RW
結果: AWD-LSTM-MorphSum はPTB上の AWD-LSTM-
Word と同等以上の性能を持ち,Wikitext-2 上の AWD-
LSTM-Word より若干優れているが,適切に再使用され
たパラメータを使用して subword-aware モデルに plain
word embeddings を置き換えることは英語以外のデー
タにとって重要
結論 1
• 全ての subword-aware NLM でパラメータを再利用す
る単一の最善の方法はない
• 再利用方法は,subword 単位と embedding モデルの
タイプに合わせて調整する必要がある
• しかし,指数関数的な(sub-networkの深さについて
は)数の構成をテストする代わりに,連続的に
bottom-up されている重みをチェックするだけで十分
結論 2
• 入出力の embeddings は似ているにも関わらず異なる
タスクを解決する
• Subword-aware NLM において入力と出力の
embedding sub-networks を完全に同じにするより,
わずかに変えるほうがよい
• これは純粋な単語レベルモデルでも同じことが当ては
まるかという疑問を提起するため,今後の研究課題と
する
結論 3
• 形態素 embeddings を足し合わせて embedding sub-
network を完全に再利用する単純な形態素-aware モデ
ルである,最善の構成の1つは,単語レベルの言語モ
デルを上回り,学習可能なパラメータ数を大幅に削減
する
• ただし,学習セットサイズの増加に伴い,性能の向上
は少なくなる

Contenu connexe

Similaire à Reusing weights in subword aware neural language models

Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPKoji Matsuda
 
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...広樹 本間
 
大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価Yahoo!デベロッパーネットワーク
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会正志 坪坂
 
論文紹介:Parameter-Efficient Transfer Learning for NLP
論文紹介:Parameter-Efficient Transfer Learning for NLP論文紹介:Parameter-Efficient Transfer Learning for NLP
論文紹介:Parameter-Efficient Transfer Learning for NLPToru Tamaki
 
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】Naoki Hayashi
 
Probabilistic fasttext for multi sense word embeddings
 Probabilistic fasttext for multi sense word embeddings Probabilistic fasttext for multi sense word embeddings
Probabilistic fasttext for multi sense word embeddingsMakoto Takenaka
 
Deep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classificationDeep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classificationJunya Kamura
 
Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands onOgushi Masaya
 
Improving Distributional Similarity with Lessons Learned from Word Embeddings
Improving Distributional Similarity with Lessons Learned from Word EmbeddingsImproving Distributional Similarity with Lessons Learned from Word Embeddings
Improving Distributional Similarity with Lessons Learned from Word EmbeddingsHiroki Nakayama
 

Similaire à Reusing weights in subword aware neural language models (12)

Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
 
大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
 
論文紹介:Parameter-Efficient Transfer Learning for NLP
論文紹介:Parameter-Efficient Transfer Learning for NLP論文紹介:Parameter-Efficient Transfer Learning for NLP
論文紹介:Parameter-Efficient Transfer Learning for NLP
 
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
 
Probabilistic fasttext for multi sense word embeddings
 Probabilistic fasttext for multi sense word embeddings Probabilistic fasttext for multi sense word embeddings
Probabilistic fasttext for multi sense word embeddings
 
EMNLP 2011 reading
EMNLP 2011 readingEMNLP 2011 reading
EMNLP 2011 reading
 
Deep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classificationDeep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classification
 
Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands on
 
第28回Tokyo.R
第28回Tokyo.R第28回Tokyo.R
第28回Tokyo.R
 
Improving Distributional Similarity with Lessons Learned from Word Embeddings
Improving Distributional Similarity with Lessons Learned from Word EmbeddingsImproving Distributional Similarity with Lessons Learned from Word Embeddings
Improving Distributional Similarity with Lessons Learned from Word Embeddings
 

Plus de 広樹 本間

論文紹介: Improving grammatical error correction models with purpose built advers...
論文紹介: Improving grammatical error correction models with purpose built advers...論文紹介: Improving grammatical error correction models with purpose built advers...
論文紹介: Improving grammatical error correction models with purpose built advers...広樹 本間
 
Infusing sequential information into conditional masked translation model wit...
Infusing sequential information into conditional masked translation model wit...Infusing sequential information into conditional masked translation model wit...
Infusing sequential information into conditional masked translation model wit...広樹 本間
 
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus広樹 本間
 
2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma広樹 本間
 
EMNLP 2019 parallel iterative edit models for local sequence transduction
EMNLP 2019 parallel iterative edit models for local sequence transductionEMNLP 2019 parallel iterative edit models for local sequence transduction
EMNLP 2019 parallel iterative edit models for local sequence transduction広樹 本間
 
2019 Levenshtein Transformer
2019 Levenshtein Transformer2019 Levenshtein Transformer
2019 Levenshtein Transformer広樹 本間
 
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...広樹 本間
 
論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)広樹 本間
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE広樹 本間
 
Unsupervised multilingual word embeddings
Unsupervised multilingual word embeddingsUnsupervised multilingual word embeddings
Unsupervised multilingual word embeddings広樹 本間
 
Improving neural machine translation by incorporating hierarchical subword fe...
Improving neural machine translation by incorporating hierarchical subword fe...Improving neural machine translation by incorporating hierarchical subword fe...
Improving neural machine translation by incorporating hierarchical subword fe...広樹 本間
 
A deep relevance model for zero shot document filtering
A deep relevance model for zero shot document filteringA deep relevance model for zero shot document filtering
A deep relevance model for zero shot document filtering広樹 本間
 
企画書 VirtualDarts v2
企画書 VirtualDarts v2企画書 VirtualDarts v2
企画書 VirtualDarts v2広樹 本間
 

Plus de 広樹 本間 (14)

論文紹介: Improving grammatical error correction models with purpose built advers...
論文紹介: Improving grammatical error correction models with purpose built advers...論文紹介: Improving grammatical error correction models with purpose built advers...
論文紹介: Improving grammatical error correction models with purpose built advers...
 
Infusing sequential information into conditional masked translation model wit...
Infusing sequential information into conditional masked translation model wit...Infusing sequential information into conditional masked translation model wit...
Infusing sequential information into conditional masked translation model wit...
 
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
 
2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma
 
EMNLP 2019 parallel iterative edit models for local sequence transduction
EMNLP 2019 parallel iterative edit models for local sequence transductionEMNLP 2019 parallel iterative edit models for local sequence transduction
EMNLP 2019 parallel iterative edit models for local sequence transduction
 
2019 Levenshtein Transformer
2019 Levenshtein Transformer2019 Levenshtein Transformer
2019 Levenshtein Transformer
 
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
 
論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE
 
Unsupervised multilingual word embeddings
Unsupervised multilingual word embeddingsUnsupervised multilingual word embeddings
Unsupervised multilingual word embeddings
 
Improving neural machine translation by incorporating hierarchical subword fe...
Improving neural machine translation by incorporating hierarchical subword fe...Improving neural machine translation by incorporating hierarchical subword fe...
Improving neural machine translation by incorporating hierarchical subword fe...
 
A deep relevance model for zero shot document filtering
A deep relevance model for zero shot document filteringA deep relevance model for zero shot document filtering
A deep relevance model for zero shot document filtering
 
最終発表
最終発表最終発表
最終発表
 
企画書 VirtualDarts v2
企画書 VirtualDarts v2企画書 VirtualDarts v2
企画書 VirtualDarts v2
 

Dernier

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 

Dernier (9)

スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 

Reusing weights in subword aware neural language models

  • 1. Reusing Weights in Subword-aware Neural Language Models Zhenisbek Assylbekov, Rustem Takhanov (NAACL-HLT 2018) 紹介者 : 小町研 B4 本間広樹 2018/07/19
  • 2. 概要 • Subword-aware のニューラル言語モデルにおいて, Subword embedding や他の重みを再利用するいくつ かの方法を提案 • 音節認識モデルと形態素認識モデルの性能を向上させ, モデルサイズを大幅に縮小 • 最良のものは単語レベルのモデルに対して20%~87% 少ないパラメータ数で複数言語に渡り大きなマージン で良い結果を出した
  • 4. 関連研究 Subword-awareのNLMに関して様々な研究がされている しかし Subword-aware または Subword-level 言語モデルでパラメー タを再利用することについての研究はあまりされていない 他の研究との違い • 出力での重みの再利用 • モデルサイズ縮小とパフォーマンスの両方を追求 • 異なるSubword単位を試し,小,中規模のデータセットの評価
  • 5. Recurrent Neural Language Model • :単語の有限語彙(単語はインデックスに変換済みと仮定) • :単語の入力 embedding 行列 • 単語 の系列に対するword embedding に基づ いて,典型的な単語レベルRNN言語モデルは に従って状態 の系列を生成 すなわち、w番目の行(wと表記)が単語w∈Wの埋め込みに対応する行列 最後の状態 hk は全系列 w1:k に関する情報を含むと仮定され,確率分布(式2)に 従う系列の次の単語 wk+1 を予測するために使用される は出力 embedding 行列, はバイアス項 はRNNの状態サイズ
  • 6. Subword-based word embeddings • :Subword の有限語彙(インデックスに変換済みと仮定) • :Subword の入力 embedding 行列 • 任意の単語 はその Subword の系列であるため,対応する Subword ベクトル の系列として表せる • パラメータ を持つ Subword ベースの word embedding モデル は Subword ベクトル(3) の系列から単語ベク トル を構成 • は embedding モデルが単語ベクトルを構成する方法に対応 すなわち単なる embedding w の代わりに x をRNNLM(1)に流し込む 例えば,KimらのCharCNNモデルにおいて,Θin は畳み込み層,highway層の重み
  • 7. 次のセクションで subword-aware RNNLM において, subword embeddings および他のパラメータ を 再利用するための簡単な技術について説明する Reusing word embeddings • 入力単語および出力単語の embedding の結びつけ の前提で • この正規化技法は単語レベルの言語モデル化には有効 • しかし,入力では subword embeddings を受け取り, 出力ではword embeddings を返すため, subword-aware 言語モデルに直接適用できない
  • 8. Reusing Weights • を subword の出力 embedding 行列とし,word embedding 行列 の代わりに, を利用するよ うに softmax 層 (2) を修正する • アイデアはかなり簡単! • 新しい embedding 行列を構築するために embedding モデル (4) を再利用 そして,softmax 層 (2)で の代わりに を使用 この修正を subword-based softmax と呼ぶ
  • 9. Reusing Weights subwaord-based softmax を持つ subword-aware RNNLM の全体的なアー キテクチャ このモデルでは embedding と 重みを再利用するために いくつかのオプションがある。 次から説明していく。
  • 10. Reusing Weights Option 1 Subword embeddings も embedding モデルの重みも再 利用しない これは大規模な語彙(800Kトークン)を持つ巨大なデー タセット(1Bトークン)で学習された大規模モデルのパ ラメータの総数を減らすことができる しかし,main experiments で使用するより小さな語彙 (10-30Kトークン)を持つより小さなデータセット(1- 2Mトークン)の大幅なパラメータの減少は期待してい ない
  • 11. Reusing Weights Option 2, 3 Subword embedding の再利用 (RE) は (5) で を設定することで可能 のモデルのサイズを大幅に減少 Embedding モデルの重みの再利用 (RW) は を設定することで可能 上のオプションと違い のモデルのサイズ を大幅に減少
  • 12. Reusing Weights Option 4 Subword embeddings と embedding モデルの重みの両 方の再利用 (RE+RW) は (5) で と を同時に設定することで可能 これにより subword-aware モデルで学習可能なパラ メータ数が大幅に削減される ここでは入力と出力の両方で全く同じ単語表現を使用す るため,このオプションは純粋な単語レベルの言語モデ ルで plain word embeddings を再利用することに対応し ている
  • 13. 実験設定 :Data sets 学習,評価:PTB, WikiText-2 分割 PTB : Training (0-20), Validation (21-22), Test (23-24) WikiText-2 はPTB の代替
  • 14. 実験設定 :Subword-based embedding モデル 言語モデル化に効果的であることが示されている表現モ デルを利用 • CharCNN (2016) • SylConcat (2017) • MorphSum (2014)
  • 15. 実験設定 :Word-level RNNLM Inanらの研究 (2017) と直接比較できるように 2つの LSTM セルのスタックを用いる
  • 16. 実験設定 :Hyperparameters 単語レベル RNNLM の状態数 dLM : 200 (small models), 650 (mediumsized model) 以下,括弧外の値は small models に対応し,括弧内の値は mediumsized model に対応 small (mediumsized) • CharCNN:Kimの研究と同様のハイパーパラメータを使用 • SylConcat:dS = 50 (200), dHW = 200 (800) • MorphSum:dS = dHW = 200 (650)
  • 17. 実験設定 :Optimization モデルの学習はコーパス に対する負の対数尤度を 最小化する 学習率が最初に以下のように設定された SGD を用いて35 タイムステップを誤差逆伝播し,減衰させていく。 ・1.0 : small 単語レベルモデル ・0.5 : small, medium CharCNN, medium SylConcat (SS, SS+RW) モデル ・0.7 : 他 バッチサイズ:20 エポック数:70 ドロップアウト(小,中): PTB(0.3, 0.5),WT2(0.2, 0.4) パラメータの初期化 単語レベルLSTMの忘却バイアス:1 small [-0.1, 0.1], medium [-0.05, 0.05] highway 層の変換バイアス:約 -2
  • 18. 実験設定:音節化と形態素分割 音節化: Liang の ハイフネーションアルゴリズム (1983) 形態素分割: 教師なしの形態学的分割ツール Morfessor 2.0 (2013) デフォルト設定を使用
  • 22. 分析 - CharCNN は表層形に偏っている 仮設:CharCNN が対応する重みの恩恵を受けない理由 は,character embedding に対する CNN が semantics よ りも表層形に適応するように学習する,過度に柔軟なモ デルだから 検証:英語のPTB語彙からいくつかの単語を選び, medium-sized モデル(普通の softmax 層)が入力で作 成したコサイン類似度が最近傍を考える
  • 23. 分析 - CharCNN は表層形に偏っている CharCNN モデルは,SylConcat と MorphSum よりも 入力の表層形に偏っている CharCNN が softmax embedding 行列を生成するために再利用されるとき,この 偏りは出力 embedding にも伝搬する
  • 24. 分析 - Tying weights bottom-up Subword embeddings を結 び付けずに重みを結ぶ (RW) と,重みと embedding の両方を結ぶ (RE+RW) よりも性能が悪 化することがわかる Subword-aware embedding モデルが使用 される前に subword embedding lookup が実行 されるから Layers should be tied consecutively bottom-up
  • 25. 分析 -入力と出力の embeddings の違い 2番目の highway 層で再利用するよりも1番目の highway 層で再利用するほうが良 い性能が得られることがわかる 単語 embeddigns を入出力でわずかに変えること,すなわち入力時にRNNLM,出 力時に softmax を必要とするために特殊化することが良くしていることを意味する
  • 26. 分析 -入力と出力の embeddings の違い 間接的に差異を検証 word embeddings の次元が入出力で異なるかどうかテスト(主成分分析) • 単語レベルモデル,CharCNN モデル,SylConcat モデルでは入出力の embedding の次元が異なる • MorphSumモデルではそれほど重要でない
  • 27. 分析 -CharCNN は MorphSum よりも一般的 大きい分割単位は小さい分割単位よりもうまく機能する と予測したが,小さい分割単位は大きい分割単位よりも よく一般化されている 目に見えない言葉で目に見えないテキストをモデル化す る能力であれば,実際には,character-aware モデルは 音節または形態素-aware モデルより優れているかもし れない
  • 28. 分析 -CharCNN は MorphSum よりも一般的 検証:CharCNN と MorphSum を PTB で学習し、 Wikitext-2 のテストセット(245Kの単語、10Kの単語タ イプ)で評価 結果:実際にCharCNN は目に見えないテキストの OOVs が少ないため,MorphSumよりも一般化されている
  • 29. 分析 -英語以外のデータの性能 MorphSum+RE+RW は Wordのベースライン+REを凌駕 この利点がより豊かな形態を有する非英語言語に及ぶか どうかを見たい 検証:5つの言語の small (1M のトークン) と medium (17M-51M のトークン) データの両方のモデルの評価を 行う
  • 31. 分析 -LSTM を AWD-LSTM に置き換える 検証:AWD-LSTM-MorphSum + RE + RW 結果: AWD-LSTM-MorphSum はPTB上の AWD-LSTM- Word と同等以上の性能を持ち,Wikitext-2 上の AWD- LSTM-Word より若干優れているが,適切に再使用され たパラメータを使用して subword-aware モデルに plain word embeddings を置き換えることは英語以外のデー タにとって重要
  • 32. 結論 1 • 全ての subword-aware NLM でパラメータを再利用す る単一の最善の方法はない • 再利用方法は,subword 単位と embedding モデルの タイプに合わせて調整する必要がある • しかし,指数関数的な(sub-networkの深さについて は)数の構成をテストする代わりに,連続的に bottom-up されている重みをチェックするだけで十分
  • 33. 結論 2 • 入出力の embeddings は似ているにも関わらず異なる タスクを解決する • Subword-aware NLM において入力と出力の embedding sub-networks を完全に同じにするより, わずかに変えるほうがよい • これは純粋な単語レベルモデルでも同じことが当ては まるかという疑問を提起するため,今後の研究課題と する
  • 34. 結論 3 • 形態素 embeddings を足し合わせて embedding sub- network を完全に再利用する単純な形態素-aware モデ ルである,最善の構成の1つは,単語レベルの言語モ デルを上回り,学習可能なパラメータ数を大幅に削減 する • ただし,学習セットサイズの増加に伴い,性能の向上 は少なくなる