Soumettre la recherche
Mettre en ligne
Reusing weights in subword aware neural language models
•
0 j'aime
•
90 vues
広
広樹 本間
Suivre
小町研 NAACL2018読み会
Lire moins
Lire la suite
Technologie
Signaler
Partager
Signaler
Partager
1 sur 34
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
Yuki Tomo
Student Cup 2020 2nd(?) solution LT
Student Cup 2020 2nd(?) solution LT
HogeBona
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documents
sakaizawa
[DL輪読会]It's not just size that maters small language models are also few sho...
[DL輪読会]It's not just size that maters small language models are also few sho...
Deep Learning JP
Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...
sakaizawa
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
Kosuke Futamata
Recommandé
Segmenting Sponteneous Japanese using MDL principle
Segmenting Sponteneous Japanese using MDL principle
Yusuke Matsubara
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
ACL 2015 読み会 @ 小町研 "Gated Recursive Neural Network for Chinese Word Segmentat...
Yuki Tomo
Student Cup 2020 2nd(?) solution LT
Student Cup 2020 2nd(?) solution LT
HogeBona
Distributed Representations of Sentences and Documents
Distributed Representations of Sentences and Documents
sakaizawa
[DL輪読会]It's not just size that maters small language models are also few sho...
[DL輪読会]It's not just size that maters small language models are also few sho...
Deep Learning JP
Minimally Supervised Classification to Semantic Categories using Automaticall...
Minimally Supervised Classification to Semantic Categories using Automaticall...
sakaizawa
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
Kosuke Futamata
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
広樹 本間
大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価
Yahoo!デベロッパーネットワーク
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
論文紹介:Parameter-Efficient Transfer Learning for NLP
論文紹介:Parameter-Efficient Transfer Learning for NLP
Toru Tamaki
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
Naoki Hayashi
Probabilistic fasttext for multi sense word embeddings
Probabilistic fasttext for multi sense word embeddings
Makoto Takenaka
EMNLP 2011 reading
EMNLP 2011 reading
正志 坪坂
Deep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classification
Junya Kamura
Chainer with natural language processing hands on
Chainer with natural language processing hands on
Ogushi Masaya
第28回Tokyo.R
第28回Tokyo.R
宏喜 佐野
Improving Distributional Similarity with Lessons Learned from Word Embeddings
Improving Distributional Similarity with Lessons Learned from Word Embeddings
Hiroki Nakayama
論文紹介: Improving grammatical error correction models with purpose built advers...
論文紹介: Improving grammatical error correction models with purpose built advers...
広樹 本間
Infusing sequential information into conditional masked translation model wit...
Infusing sequential information into conditional masked translation model wit...
広樹 本間
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
広樹 本間
2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma
広樹 本間
EMNLP 2019 parallel iterative edit models for local sequence transduction
EMNLP 2019 parallel iterative edit models for local sequence transduction
広樹 本間
2019 Levenshtein Transformer
2019 Levenshtein Transformer
広樹 本間
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
広樹 本間
論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)
広樹 本間
2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
Unsupervised multilingual word embeddings
Unsupervised multilingual word embeddings
広樹 本間
Contenu connexe
Similaire à Reusing weights in subword aware neural language models
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
広樹 本間
大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価
Yahoo!デベロッパーネットワーク
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
論文紹介:Parameter-Efficient Transfer Learning for NLP
論文紹介:Parameter-Efficient Transfer Learning for NLP
Toru Tamaki
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
Naoki Hayashi
Probabilistic fasttext for multi sense word embeddings
Probabilistic fasttext for multi sense word embeddings
Makoto Takenaka
EMNLP 2011 reading
EMNLP 2011 reading
正志 坪坂
Deep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classification
Junya Kamura
Chainer with natural language processing hands on
Chainer with natural language processing hands on
Ogushi Masaya
第28回Tokyo.R
第28回Tokyo.R
宏喜 佐野
Improving Distributional Similarity with Lessons Learned from Word Embeddings
Improving Distributional Similarity with Lessons Learned from Word Embeddings
Hiroki Nakayama
Similaire à Reusing weights in subword aware neural language models
(12)
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
2020 acl learning_to_recover_from_multi-modality_errors_for_non-autoregressiv...
大規模日本語ブログコーパスにおける言語モデルの構築と評価
大規模日本語ブログコーパスにおける言語モデルの構築と評価
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
論文紹介:Parameter-Efficient Transfer Learning for NLP
論文紹介:Parameter-Efficient Transfer Learning for NLP
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
【学会発表】LDAにおけるベイズ汎化誤差の厳密な漸近形【IBIS2020】
Probabilistic fasttext for multi sense word embeddings
Probabilistic fasttext for multi sense word embeddings
EMNLP 2011 reading
EMNLP 2011 reading
Deep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classification
Chainer with natural language processing hands on
Chainer with natural language processing hands on
第28回Tokyo.R
第28回Tokyo.R
Improving Distributional Similarity with Lessons Learned from Word Embeddings
Improving Distributional Similarity with Lessons Learned from Word Embeddings
Plus de 広樹 本間
論文紹介: Improving grammatical error correction models with purpose built advers...
論文紹介: Improving grammatical error correction models with purpose built advers...
広樹 本間
Infusing sequential information into conditional masked translation model wit...
Infusing sequential information into conditional masked translation model wit...
広樹 本間
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
広樹 本間
2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma
広樹 本間
EMNLP 2019 parallel iterative edit models for local sequence transduction
EMNLP 2019 parallel iterative edit models for local sequence transduction
広樹 本間
2019 Levenshtein Transformer
2019 Levenshtein Transformer
広樹 本間
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
広樹 本間
論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)
広樹 本間
2019年度チュートリアルBPE
2019年度チュートリアルBPE
広樹 本間
Unsupervised multilingual word embeddings
Unsupervised multilingual word embeddings
広樹 本間
Improving neural machine translation by incorporating hierarchical subword fe...
Improving neural machine translation by incorporating hierarchical subword fe...
広樹 本間
A deep relevance model for zero shot document filtering
A deep relevance model for zero shot document filtering
広樹 本間
最終発表
最終発表
広樹 本間
企画書 VirtualDarts v2
企画書 VirtualDarts v2
広樹 本間
Plus de 広樹 本間
(14)
論文紹介: Improving grammatical error correction models with purpose built advers...
論文紹介: Improving grammatical error correction models with purpose built advers...
Infusing sequential information into conditional masked translation model wit...
Infusing sequential information into conditional masked translation model wit...
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
論文紹介 JParaCrawl: A Large Scale Web-Based English-Japanese Parallel Corpus
2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma
EMNLP 2019 parallel iterative edit models for local sequence transduction
EMNLP 2019 parallel iterative edit models for local sequence transduction
2019 Levenshtein Transformer
2019 Levenshtein Transformer
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
2019 dynamically composing_domain-data_selection_with_clean-data_selection_by...
論文紹介 Star-Transformer (NAACL 2019)
論文紹介 Star-Transformer (NAACL 2019)
2019年度チュートリアルBPE
2019年度チュートリアルBPE
Unsupervised multilingual word embeddings
Unsupervised multilingual word embeddings
Improving neural machine translation by incorporating hierarchical subword fe...
Improving neural machine translation by incorporating hierarchical subword fe...
A deep relevance model for zero shot document filtering
A deep relevance model for zero shot document filtering
最終発表
最終発表
企画書 VirtualDarts v2
企画書 VirtualDarts v2
Dernier
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
sugiuralab
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
iPride Co., Ltd.
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
Shota Ito
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Ryo Sasaki
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
danielhu54
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
iPride Co., Ltd.
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
furutsuka
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
osamut
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
Atomu Hidaka
Dernier
(9)
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
Reusing weights in subword aware neural language models
1.
Reusing Weights in
Subword-aware Neural Language Models Zhenisbek Assylbekov, Rustem Takhanov (NAACL-HLT 2018) 紹介者 : 小町研 B4 本間広樹 2018/07/19
2.
概要 • Subword-aware のニューラル言語モデルにおいて, Subword
embedding や他の重みを再利用するいくつ かの方法を提案 • 音節認識モデルと形態素認識モデルの性能を向上させ, モデルサイズを大幅に縮小 • 最良のものは単語レベルのモデルに対して20%~87% 少ないパラメータ数で複数言語に渡り大きなマージン で良い結果を出した
3.
はじめに 2つのクエスチョン • Embeddingや他のパラメータをSubword-awareの ニューラル言語モデルにおいて再利用することは可能 か? • それは言語モデル化に有益か?
4.
関連研究 Subword-awareのNLMに関して様々な研究がされている しかし Subword-aware または Subword-level
言語モデルでパラメー タを再利用することについての研究はあまりされていない 他の研究との違い • 出力での重みの再利用 • モデルサイズ縮小とパフォーマンスの両方を追求 • 異なるSubword単位を試し,小,中規模のデータセットの評価
5.
Recurrent Neural Language
Model • :単語の有限語彙(単語はインデックスに変換済みと仮定) • :単語の入力 embedding 行列 • 単語 の系列に対するword embedding に基づ いて,典型的な単語レベルRNN言語モデルは に従って状態 の系列を生成 すなわち、w番目の行(wと表記)が単語w∈Wの埋め込みに対応する行列 最後の状態 hk は全系列 w1:k に関する情報を含むと仮定され,確率分布(式2)に 従う系列の次の単語 wk+1 を予測するために使用される は出力 embedding 行列, はバイアス項 はRNNの状態サイズ
6.
Subword-based word embeddings •
:Subword の有限語彙(インデックスに変換済みと仮定) • :Subword の入力 embedding 行列 • 任意の単語 はその Subword の系列であるため,対応する Subword ベクトル の系列として表せる • パラメータ を持つ Subword ベースの word embedding モデル は Subword ベクトル(3) の系列から単語ベク トル を構成 • は embedding モデルが単語ベクトルを構成する方法に対応 すなわち単なる embedding w の代わりに x をRNNLM(1)に流し込む 例えば,KimらのCharCNNモデルにおいて,Θin は畳み込み層,highway層の重み
7.
次のセクションで subword-aware RNNLM
において, subword embeddings および他のパラメータ を 再利用するための簡単な技術について説明する Reusing word embeddings • 入力単語および出力単語の embedding の結びつけ の前提で • この正規化技法は単語レベルの言語モデル化には有効 • しかし,入力では subword embeddings を受け取り, 出力ではword embeddings を返すため, subword-aware 言語モデルに直接適用できない
8.
Reusing Weights • を
subword の出力 embedding 行列とし,word embedding 行列 の代わりに, を利用するよ うに softmax 層 (2) を修正する • アイデアはかなり簡単! • 新しい embedding 行列を構築するために embedding モデル (4) を再利用 そして,softmax 層 (2)で の代わりに を使用 この修正を subword-based softmax と呼ぶ
9.
Reusing Weights subwaord-based softmax を持つ
subword-aware RNNLM の全体的なアー キテクチャ このモデルでは embedding と 重みを再利用するために いくつかのオプションがある。 次から説明していく。
10.
Reusing Weights Option
1 Subword embeddings も embedding モデルの重みも再 利用しない これは大規模な語彙(800Kトークン)を持つ巨大なデー タセット(1Bトークン)で学習された大規模モデルのパ ラメータの総数を減らすことができる しかし,main experiments で使用するより小さな語彙 (10-30Kトークン)を持つより小さなデータセット(1- 2Mトークン)の大幅なパラメータの減少は期待してい ない
11.
Reusing Weights Option
2, 3 Subword embedding の再利用 (RE) は (5) で を設定することで可能 のモデルのサイズを大幅に減少 Embedding モデルの重みの再利用 (RW) は を設定することで可能 上のオプションと違い のモデルのサイズ を大幅に減少
12.
Reusing Weights Option
4 Subword embeddings と embedding モデルの重みの両 方の再利用 (RE+RW) は (5) で と を同時に設定することで可能 これにより subword-aware モデルで学習可能なパラ メータ数が大幅に削減される ここでは入力と出力の両方で全く同じ単語表現を使用す るため,このオプションは純粋な単語レベルの言語モデ ルで plain word embeddings を再利用することに対応し ている
13.
実験設定 :Data sets 学習,評価:PTB,
WikiText-2 分割 PTB : Training (0-20), Validation (21-22), Test (23-24) WikiText-2 はPTB の代替
14.
実験設定 :Subword-based embedding
モデル 言語モデル化に効果的であることが示されている表現モ デルを利用 • CharCNN (2016) • SylConcat (2017) • MorphSum (2014)
15.
実験設定 :Word-level RNNLM Inanらの研究
(2017) と直接比較できるように 2つの LSTM セルのスタックを用いる
16.
実験設定 :Hyperparameters 単語レベル RNNLM
の状態数 dLM : 200 (small models), 650 (mediumsized model) 以下,括弧外の値は small models に対応し,括弧内の値は mediumsized model に対応 small (mediumsized) • CharCNN:Kimの研究と同様のハイパーパラメータを使用 • SylConcat:dS = 50 (200), dHW = 200 (800) • MorphSum:dS = dHW = 200 (650)
17.
実験設定 :Optimization モデルの学習はコーパス に対する負の対数尤度を 最小化する 学習率が最初に以下のように設定された
SGD を用いて35 タイムステップを誤差逆伝播し,減衰させていく。 ・1.0 : small 単語レベルモデル ・0.5 : small, medium CharCNN, medium SylConcat (SS, SS+RW) モデル ・0.7 : 他 バッチサイズ:20 エポック数:70 ドロップアウト(小,中): PTB(0.3, 0.5),WT2(0.2, 0.4) パラメータの初期化 単語レベルLSTMの忘却バイアス:1 small [-0.1, 0.1], medium [-0.05, 0.05] highway 層の変換バイアス:約 -2
18.
実験設定:音節化と形態素分割 音節化: Liang の ハイフネーションアルゴリズム
(1983) 形態素分割: 教師なしの形態学的分割ツール Morfessor 2.0 (2013) デフォルト設定を使用
19.
結果 提案する各オプションが言語モデル化タスクにおいてど の程度役立つかを調べるために,各 subword-aware モ デルに対する4つの変更(再利用なし,RE,RW, RE+RW)と,そのオリジナルおよび単語レベルのベー スラインとを比較評価 negative
と positive 両方の所見を次に要約する
20.
結果-Negative 性 能 低 下
21.
結果-Positive 性 能 向 上
22.
分析 - CharCNN
は表層形に偏っている 仮設:CharCNN が対応する重みの恩恵を受けない理由 は,character embedding に対する CNN が semantics よ りも表層形に適応するように学習する,過度に柔軟なモ デルだから 検証:英語のPTB語彙からいくつかの単語を選び, medium-sized モデル(普通の softmax 層)が入力で作 成したコサイン類似度が最近傍を考える
23.
分析 - CharCNN
は表層形に偏っている CharCNN モデルは,SylConcat と MorphSum よりも 入力の表層形に偏っている CharCNN が softmax embedding 行列を生成するために再利用されるとき,この 偏りは出力 embedding にも伝搬する
24.
分析 - Tying
weights bottom-up Subword embeddings を結 び付けずに重みを結ぶ (RW) と,重みと embedding の両方を結ぶ (RE+RW) よりも性能が悪 化することがわかる Subword-aware embedding モデルが使用 される前に subword embedding lookup が実行 されるから Layers should be tied consecutively bottom-up
25.
分析 -入力と出力の embeddings
の違い 2番目の highway 層で再利用するよりも1番目の highway 層で再利用するほうが良 い性能が得られることがわかる 単語 embeddigns を入出力でわずかに変えること,すなわち入力時にRNNLM,出 力時に softmax を必要とするために特殊化することが良くしていることを意味する
26.
分析 -入力と出力の embeddings
の違い 間接的に差異を検証 word embeddings の次元が入出力で異なるかどうかテスト(主成分分析) • 単語レベルモデル,CharCNN モデル,SylConcat モデルでは入出力の embedding の次元が異なる • MorphSumモデルではそれほど重要でない
27.
分析 -CharCNN は
MorphSum よりも一般的 大きい分割単位は小さい分割単位よりもうまく機能する と予測したが,小さい分割単位は大きい分割単位よりも よく一般化されている 目に見えない言葉で目に見えないテキストをモデル化す る能力であれば,実際には,character-aware モデルは 音節または形態素-aware モデルより優れているかもし れない
28.
分析 -CharCNN は
MorphSum よりも一般的 検証:CharCNN と MorphSum を PTB で学習し、 Wikitext-2 のテストセット(245Kの単語、10Kの単語タ イプ)で評価 結果:実際にCharCNN は目に見えないテキストの OOVs が少ないため,MorphSumよりも一般化されている
29.
分析 -英語以外のデータの性能 MorphSum+RE+RW は
Wordのベースライン+REを凌駕 この利点がより豊かな形態を有する非英語言語に及ぶか どうかを見たい 検証:5つの言語の small (1M のトークン) と medium (17M-51M のトークン) データの両方のモデルの評価を 行う
30.
分析 -英語以外のデータの性能 結果:単語レベルのモデルに対する形態素-aware モデ ルの利点は,英語以外のデータではさらに顕著
31.
分析 -LSTM を
AWD-LSTM に置き換える 検証:AWD-LSTM-MorphSum + RE + RW 結果: AWD-LSTM-MorphSum はPTB上の AWD-LSTM- Word と同等以上の性能を持ち,Wikitext-2 上の AWD- LSTM-Word より若干優れているが,適切に再使用され たパラメータを使用して subword-aware モデルに plain word embeddings を置き換えることは英語以外のデー タにとって重要
32.
結論 1 • 全ての
subword-aware NLM でパラメータを再利用す る単一の最善の方法はない • 再利用方法は,subword 単位と embedding モデルの タイプに合わせて調整する必要がある • しかし,指数関数的な(sub-networkの深さについて は)数の構成をテストする代わりに,連続的に bottom-up されている重みをチェックするだけで十分
33.
結論 2 • 入出力の
embeddings は似ているにも関わらず異なる タスクを解決する • Subword-aware NLM において入力と出力の embedding sub-networks を完全に同じにするより, わずかに変えるほうがよい • これは純粋な単語レベルモデルでも同じことが当ては まるかという疑問を提起するため,今後の研究課題と する
34.
結論 3 • 形態素
embeddings を足し合わせて embedding sub- network を完全に再利用する単純な形態素-aware モデ ルである,最善の構成の1つは,単語レベルの言語モ デルを上回り,学習可能なパラメータ数を大幅に削減 する • ただし,学習セットサイズの増加に伴い,性能の向上 は少なくなる
Télécharger maintenant