論文紹介

どんなもの？
先行研究と比べて何がすごい？
技術の手法や肝は？
議論はある？
どうやって有効だと検証した？
次に読むべき論文は？
A structured self-attentive sentence embedding.(self-attention)
Deep residual learning for image recognition.(residual connection)
Layer normalization.
Discussionは無し。
今後の展望として、テキスト以外の画像・音声・動画といった大容量の入出力について
も「Transformer」を適用できるのではないかと考えている。
WMT 2014 Englishto-German translation taskにおいて28.4BLEUというスコアを出し、アン
サンブルを含む既存の最良の結果より2BLEU以上高いスコアを出した。
また、WMT 2014 English-to-French translation taskにおいて41.8BLEUというシングルモデル
の最高のスコアを出し、トレーニングに要した時間も8つのGPUで3.5日間（先行研究の
1/4のコスト）という最良のアンサンブルモデルと比べて短い時間であった。
エンコーダー・デコーダー構造で最も一般的に用いられているリカレント層を「multi-
headed self-attention」に置き換えたこと。
翻訳タスクにおいてSeq2seqモデル(RNNを使ったもの)よりも精度が高い。また並列化が
可能であり、トレーニングに要する時間が大幅に改善されている。
時系列伝達モデルとしてRNNやCNNを使わず、attentionのみを利用したシンプルな構造
の「Transformer」を提案する。
Attention Is All You Need
（ 12 Jun 2017 ）Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
https://arxiv.org/pdf/1706.03762.pdf
2020/6/19

どんなもの？
議論はある？
Attentive pooling networks. (attention)
Long short-term memory-networks for machine reading. (self-attention)（違いはエンコ
ーディングが先行研究ではベクトルであるが、本研究はペナルティ項をもつ行列であ
る。）
今回の実験で内容が長い程、先行研究より良い結果を得ることができたので、離れた関
係をうまく捉えられていると考える。
今回のモデルは非常に単純であるので、より複雑なモデルにすることでLSTMの隠れ状態
に多くの操作を可能にすると考える。
今回のモデルでは下流の適用に大きく依存しているため、教師無し学習ではうまくいか
ないと考える。
ツイッターに投稿されたツイートから5クラスに分割した投稿者の年齢を推定するタス
クでaccuracyが80.45%で既存の双方向LSTMより精度が3%向上した。
Yelpという感情分析のタスク（レビューサイトに投稿されたレビューからその時に投稿
した評価（５クラス）を予測するタスク）でaccuracyが64.21%で既存の双方向LSTMより
精度が2.2%向上した。
既存の双方向LSTMにself-attention層を追加することで、離れた入力の関係も考慮するこ
とができるようになった。
LSTMからの出力である隠れ状態ベクトルhに対してかけるattention(重み)を計算するのに
h自身が使われる。
時系列データのタスクのaccuracyが向上した。
文のベクトル表現の作成時に「self-attention」を使用することで、従来のRNNでは考慮
することができなかった離れた入力の関係も考慮することができるモデルになった。
A structured self-attentive sentence embedding
（ 9 Mar 2017 ） Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou & Yoshua Bengio
2020/6/19

どんなもの？
議論はある？
Memory networks.(hard attention)
Neural machine translation by jointly learning to align and translate. (RNNsearch)
より大きなメモリが必要な場合はうまく利用できないかもしれない。
今後はattentionやhashingのマルチスケールの手法を探索していく。
bAbIという20種類の異なる形式の質問文に対して答えを返すタスクで従来のmemory
networksのerror率を15%改善した。
エンコーダーで入力文からベクトルmとcを作成する。デコーダーで入力からベクトルu
を作成する。まずmとuの内積を計算しソフトマックス関数に入れ、cのどこを参照すべ
きかの重みpを作る。その内積結果pとcのアダマール積をとり、埋め込んだベクトルの
語彙数方向に和をとる(o)。このoと元のuを足して最後に、重みWをかけることで既存の
文章を記憶し、質問に回答することができるモデルを作成した。
質問に回答するタスクでerror率が改善した。
End-to-endのモデルを作成することができた。
エンコーダーで入力を2種類のベクトルにエンコードし、片方でデコーダーからの入力
に重み付けをし、その2つの内積をattentionとしてもう片方のベクトルとアダマール積
をとり、合計することで、質問に答えるタスクのerror率を改善し、また従来ではhard
attentionを使用していたが、微分可能なsoft attentionを使用することでend-to-endなモデ
ルを作成した。
End-To-End Memory Networks
（ 31 Mar 2015） Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, Rob Fergus
2020/6/19

どんなもの？
議論はある？
Aggregating local image descriptors into compact codes.(residual vectors)
層を深くしたときに起こる勾配消失の問題を解決したと考える。
ImageNetデータセットでVGG16を参考にして３４層に深くしたものとその３４層に
residualを加えたものを比較するとerror率が3.5%改善した。
ImageNetデータセットで152層のモデルを含む異なる深さのモデル６つをアンサンブル
したものでtop-5 error率が3.57%で先行研究より1.25%改善された。
residual learningとidentity mapping by shortcuts
先行研究では層を深くすると学習がうまくいかなかったが、152層のモデルでスコアを
改善することができた。
下記のresidual learningとidentity mapping by shortcuts を組み合わしたdeep residual learning
を作成した。
residual learnigはlayerによるoutputをh(x)とするとh(x) – xを学習させること。
identity mapping by shortcutsはより深い層の出力に対して、その手前の層の出力を間の層
を飛ばして加算するもの。
Deep Residual Learning for Image Recognition
（ 10 Dec 2015） Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
2020/6/19

どんなもの？
議論はある？
GLUE:A Multi-Task Benchmark and Analysis Platform for Natural Language
Understanding. (GLUE)
Deep contextualized word representations. (ELMo)
無し
GLUEという自然言語理解の８つのタスクにおいて全てにおいて先行研究よりスコアが向
上した。SQuAD v1.1という質問と答えが含まれている文章が与えられ、質問に対する答
えを予測するタスクでもF1値が1.5%向上した。SQuAD v2.0というSQuAD v1.1に与えられ
た文章には答えが存在しないという選択肢が追加されたものでも5.1%向上した。SWAG
というある文章が与えられて、その続きとしてふさわしいものを４つの選択肢の中から
選ぶタスクでは8.3%向上した。
下記のmaskedLMとNext Sentence Predictionという２つの事前学習により、双方向性の事
前学習済みのモデルを作成することができた。
maskedLMという文章の15%の単語をmaskトークンに変え（そのうちの80%をmaskトーク
ンにし、10%をランダムな単語、10%をそのままにする。）、そのトークンを予測する。
Next Sentence Predictionという与えられた２文がつながっているかを予測するタスクを学
習する。（50%はつながっており、残りの50%はコーパスからのランダムな文である）
自然言語関連のタスクのスコアが軒並み向上した。
単方向性の深い構造のモデルや双方性の浅いモデルを教師無しの事前学習させ、転移学
習させることで、モデルの精度が向上することは示されていたが、双方向性の深い構造
のモデルでも転移学習することで精度が向上することが示された。
Bidirectional Encoder Representations from Transformersの略。
ラベル付けされていないテキストから双方向の表現を事前学習するように作られたモデ
ル。
タスク毎に入力と出力をタスク固有のものに変えるだけでfine-tuningが容易である。
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
（ 11 Oct 2018） Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
2020/6/19

論文紹介

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

論文紹介