Reusing weights in subword aware neural language models

Reusing Weights in Subword-aware
Neural Language Models
Zhenisbek Assylbekov, Rustem Takhanov
（NAACL-HLT 2018）
紹介者 : 小町研 B4 本間広樹 2018/07/19

概要
• Subword-aware のニューラル言語モデルにおいて，
Subword embedding や他の重みを再利用するいくつ
かの方法を提案
• 音節認識モデルと形態素認識モデルの性能を向上させ，
モデルサイズを大幅に縮小
• 最良のものは単語レベルのモデルに対して20％～87％
少ないパラメータ数で複数言語に渡り大きなマージン
で良い結果を出した

はじめに
2つのクエスチョン
• Embeddingや他のパラメータをSubword-awareの
ニューラル言語モデルにおいて再利用することは可能
か？
• それは言語モデル化に有益か？

関連研究
Subword-awareのNLMに関して様々な研究がされている
しかし
Subword-aware または Subword-level 言語モデルでパラメー
タを再利用することについての研究はあまりされていない
他の研究との違い
• 出力での重みの再利用
• モデルサイズ縮小とパフォーマンスの両方を追求
• 異なるSubword単位を試し，小，中規模のデータセットの評価

Recurrent Neural Language Model
• ：単語の有限語彙（単語はインデックスに変換済みと仮定）
• ：単語の入力 embedding 行列
• 単語の系列に対するword embedding に基づ
いて，典型的な単語レベルRNN言語モデルは
に従って状態
の系列を生成
すなわち、w番目の行（wと表記）が単語w∈Wの埋め込みに対応する行列
最後の状態 hk は全系列 w1:k に関する情報を含むと仮定され，確率分布（式2）に
従う系列の次の単語 wk+1 を予測するために使用される
は出力 embedding 行列，はバイアス項
はRNNの状態サイズ

Subword-based word embeddings
• ：Subword の有限語彙（インデックスに変換済みと仮定）
• ：Subword の入力 embedding 行列
• 任意の単語はその Subword
の系列であるため，対応する Subword ベクトル
の系列として表せる
• パラメータを持つ Subword ベースの word embedding
モデルは Subword ベクトル(3) の系列から単語ベク
トルを構成
• は embedding モデルが単語ベクトルを構成する方法に対応
すなわち単なる embedding w の代わりに x をRNNLM(1)に流し込む
例えば，KimらのCharCNNモデルにおいて，Θin は畳み込み層，highway層の重み

次のセクションで subword-aware RNNLM において，
subword embeddings および他のパラメータを
再利用するための簡単な技術について説明する
Reusing word embeddings
• 入力単語および出力単語の embedding の結びつけ
の前提で
• この正規化技法は単語レベルの言語モデル化には有効
• しかし，入力では subword embeddings を受け取り，
出力ではword embeddings を返すため，
subword-aware 言語モデルに直接適用できない

Reusing Weights
• を subword の出力 embedding 行列とし，word
embedding 行列の代わりに，を利用するよ
うに softmax 層 (2) を修正する
• アイデアはかなり簡単！
• 新しい embedding 行列を構築するために embedding
モデル (4) を再利用
そして，softmax 層 (2)での代わりにを使用
この修正を subword-based softmax と呼ぶ

Reusing Weights
subwaord-based softmax
を持つ subword-aware
RNNLM の全体的なアー
キテクチャ
このモデルでは embedding
と重みを再利用するために
いくつかのオプションがある。
次から説明していく。

Reusing Weights Option 1
Subword embeddings も embedding モデルの重みも再
利用しない
これは大規模な語彙（800Kトークン）を持つ巨大なデー
タセット（1Bトークン）で学習された大規模モデルのパ
ラメータの総数を減らすことができる
しかし，main experiments で使用するより小さな語彙
（10-30Kトークン）を持つより小さなデータセット（1-
2Mトークン）の大幅なパラメータの減少は期待してい
ない

Reusing Weights Option 2, 3
Subword embedding の再利用 (RE) は (5) で
を設定することで可能
のモデルのサイズを大幅に減少
Embedding モデルの重みの再利用 (RW) は
を設定することで可能
上のオプションと違いのモデルのサイズ
を大幅に減少

Reusing Weights Option 4
Subword embeddings と embedding モデルの重みの両
方の再利用 (RE+RW) は (5) でと
を同時に設定することで可能
これにより subword-aware モデルで学習可能なパラ
メータ数が大幅に削減される
ここでは入力と出力の両方で全く同じ単語表現を使用す
るため，このオプションは純粋な単語レベルの言語モデ
ルで plain word embeddings を再利用することに対応し
ている

実験設定：Data sets
学習，評価：PTB, WikiText-2
分割
PTB : Training (0-20), Validation (21-22), Test (23-24)
WikiText-2 はPTB の代替

実験設定：Subword-based embedding モデル
言語モデル化に効果的であることが示されている表現モ
デルを利用
• CharCNN (2016)
• SylConcat (2017)
• MorphSum (2014)

実験設定：Word-level RNNLM
Inanらの研究 (2017) と直接比較できるように
2つの LSTM セルのスタックを用いる

実験設定：Hyperparameters
単語レベル RNNLM の状態数 dLM ：
200 (small models), 650 (mediumsized model)
以下，括弧外の値は small models に対応し，括弧内の値は
mediumsized model に対応 small (mediumsized)
• CharCNN：Kimの研究と同様のハイパーパラメータを使用
• SylConcat：dS = 50 (200), dHW = 200 (800)
• MorphSum：dS = dHW = 200 (650)

実験設定：Optimization
モデルの学習はコーパスに対する負の対数尤度を
最小化する
学習率が最初に以下のように設定された SGD を用いて35
タイムステップを誤差逆伝播し，減衰させていく。
・1.0 : small 単語レベルモデル
・0.5 : small, medium CharCNN, medium SylConcat (SS, SS+RW) モデル
・0.7 : 他
バッチサイズ：20
エポック数：70
ドロップアウト(小,中)：
PTB(0.3, 0.5)，WT2(0.2, 0.4)
パラメータの初期化
単語レベルLSTMの忘却バイアス：1
small [-0.1, 0.1], medium [-0.05, 0.05]
highway 層の変換バイアス：約 -2

実験設定：音節化と形態素分割
音節化：
Liang のハイフネーションアルゴリズム (1983)
形態素分割：
教師なしの形態学的分割ツール Morfessor 2.0 (2013)
デフォルト設定を使用

結果
提案する各オプションが言語モデル化タスクにおいてど
の程度役立つかを調べるために，各 subword-aware モ
デルに対する4つの変更（再利用なし，RE，RW，
RE+RW）と，そのオリジナルおよび単語レベルのベー
スラインとを比較評価
negative と positive 両方の所見を次に要約する

結果－Negative
性
能
低
下

結果－Positive
性
能
向
上

分析－ CharCNN は表層形に偏っている
仮設：CharCNN が対応する重みの恩恵を受けない理由
は，character embedding に対する CNN が semantics よ
りも表層形に適応するように学習する，過度に柔軟なモ
デルだから
検証：英語のPTB語彙からいくつかの単語を選び，
medium-sized モデル（普通の softmax 層）が入力で作
成したコサイン類似度が最近傍を考える

分析－ CharCNN は表層形に偏っている
CharCNN モデルは，SylConcat と MorphSum よりも入力の表層形に偏っている
CharCNN が softmax embedding 行列を生成するために再利用されるとき，この
偏りは出力 embedding にも伝搬する

分析－ Tying weights bottom-up
Subword embeddings を結
び付けずに重みを結ぶ
(RW) と，重みと
embedding の両方を結ぶ
(RE+RW) よりも性能が悪
化することがわかる
Subword-aware
embedding モデルが使用
される前に subword
embedding lookup が実行
されるから
Layers should be tied consecutively bottom-up

分析－入力と出力の embeddings の違い
2番目の highway 層で再利用するよりも1番目の highway 層で再利用するほうが良
い性能が得られることがわかる
単語 embeddigns を入出力でわずかに変えること，すなわち入力時にRNNLM，出
力時に softmax を必要とするために特殊化することが良くしていることを意味する

分析－入力と出力の embeddings の違い
間接的に差異を検証
word embeddings の次元が入出力で異なるかどうかテスト（主成分分析）
• 単語レベルモデル，CharCNN モデル，SylConcat モデルでは入出力の
embedding の次元が異なる
• MorphSumモデルではそれほど重要でない

分析－CharCNN は MorphSum よりも一般的
大きい分割単位は小さい分割単位よりもうまく機能する
と予測したが，小さい分割単位は大きい分割単位よりも
よく一般化されている
目に見えない言葉で目に見えないテキストをモデル化す
る能力であれば，実際には，character-aware モデルは
音節または形態素-aware モデルより優れているかもし
れない

分析－CharCNN は MorphSum よりも一般的
検証：CharCNN と MorphSum を PTB で学習し、
Wikitext-2 のテストセット（245Kの単語、10Kの単語タ
イプ）で評価
結果：実際にCharCNN は目に見えないテキストの OOVs
が少ないため，MorphSumよりも一般化されている

分析－英語以外のデータの性能
MorphSum+RE+RW は Wordのベースライン+REを凌駕
この利点がより豊かな形態を有する非英語言語に及ぶか
どうかを見たい
検証：5つの言語の small (1M のトークン) と medium
(17M-51M のトークン) データの両方のモデルの評価を
行う

分析－英語以外のデータの性能
結果：単語レベルのモデルに対する形態素-aware モデ
ルの利点は，英語以外のデータではさらに顕著

分析－LSTM を AWD-LSTM に置き換える
検証：AWD-LSTM-MorphSum + RE + RW
結果： AWD-LSTM-MorphSum はPTB上の AWD-LSTM-
Word と同等以上の性能を持ち，Wikitext-2 上の AWD-
LSTM-Word より若干優れているが，適切に再使用され
たパラメータを使用して subword-aware モデルに plain
word embeddings を置き換えることは英語以外のデー
タにとって重要

結論 1
• 全ての subword-aware NLM でパラメータを再利用す
る単一の最善の方法はない
• 再利用方法は，subword 単位と embedding モデルの
タイプに合わせて調整する必要がある
• しかし，指数関数的な（sub-networkの深さについて
は）数の構成をテストする代わりに，連続的に
bottom-up されている重みをチェックするだけで十分

結論 2
• 入出力の embeddings は似ているにも関わらず異なる
タスクを解決する
• Subword-aware NLM において入力と出力の
embedding sub-networks を完全に同じにするより，
わずかに変えるほうがよい
• これは純粋な単語レベルモデルでも同じことが当ては
まるかという疑問を提起するため，今後の研究課題と
する

結論 3
• 形態素 embeddings を足し合わせて embedding sub-
network を完全に再利用する単純な形態素-aware モデ
ルである，最善の構成の1つは，単語レベルの言語モ
デルを上回り，学習可能なパラメータ数を大幅に削減
する
• ただし，学習セットサイズの増加に伴い，性能の向上
は少なくなる

Reusing weights in subword aware neural language models

Recommandé

Recommandé

Contenu connexe

Similaire à Reusing weights in subword aware neural language models

Similaire à Reusing weights in subword aware neural language models (12)

Plus de 広樹本間

Plus de 広樹本間 (14)

Dernier

Dernier (9)