SlideShare une entreprise Scribd logo
1  sur  5
Télécharger pour lire hors ligne
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
議論はある?
どうやって有効だと検証した?
次に読むべき論文は?
A structured self-attentive sentence embedding.(self-attention)
Deep residual learning for image recognition.(residual connection)
Layer normalization.
Discussionは無し。
今後の展望として、テキスト以外の画像・音声・動画といった大容量の入出力について
も「Transformer」を適用できるのではないかと考えている。
WMT 2014 Englishto-German translation taskにおいて28.4BLEUというスコアを出し、アン
サンブルを含む既存の最良の結果より2BLEU以上高いスコアを出した。
また、WMT 2014 English-to-French translation taskにおいて41.8BLEUというシングルモデル
の最高のスコアを出し、トレーニングに要した時間も8つのGPUで3.5日間(先行研究の
1/4のコスト)という最良のアンサンブルモデルと比べて短い時間であった。
エンコーダー・デコーダー構造で最も一般的に用いられているリカレント層を「multi-
headed self-attention」に置き換えたこと。
翻訳タスクにおいてSeq2seqモデル(RNNを使ったもの)よりも精度が高い。また並列化が
可能であり、トレーニングに要する時間が大幅に改善されている。
時系列伝達モデルとしてRNNやCNNを使わず、attentionのみを利用したシンプルな構造
の「Transformer」を提案する。
Attention Is All You Need
( 12 Jun 2017 )Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
https://arxiv.org/pdf/1706.03762.pdf
2020/6/19
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
議論はある?
どうやって有効だと検証した?
次に読むべき論文は?
Attentive pooling networks. (attention)
Long short-term memory-networks for machine reading. (self-attention)(違いはエンコ
ーディングが先行研究ではベクトルであるが、本研究はペナルティ項をもつ行列であ
る。)
今回の実験で内容が長い程、先行研究より良い結果を得ることができたので、離れた関
係をうまく捉えられていると考える。
今回のモデルは非常に単純であるので、より複雑なモデルにすることでLSTMの隠れ状態
に多くの操作を可能にすると考える。
今回のモデルでは下流の適用に大きく依存しているため、教師無し学習ではうまくいか
ないと考える。
ツイッターに投稿されたツイートから5クラスに分割した投稿者の年齢を推定するタス
クでaccuracyが80.45%で既存の双方向LSTMより精度が3%向上した。
Yelpという感情分析のタスク(レビューサイトに投稿されたレビューからその時に投稿
した評価(5クラス)を予測するタスク)でaccuracyが64.21%で既存の双方向LSTMより
精度が2.2%向上した。
既存の双方向LSTMにself-attention層を追加することで、離れた入力の関係も考慮するこ
とができるようになった。
LSTMからの出力である隠れ状態ベクトルhに対してかけるattention(重み)を計算するのに
h自身が使われる。
時系列データのタスクのaccuracyが向上した。
文のベクトル表現の作成時に「self-attention」を使用することで、従来のRNNでは考慮
することができなかった離れた入力の関係も考慮することができるモデルになった。
A structured self-attentive sentence embedding
( 9 Mar 2017 ) Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou & Yoshua Bengio
https://arxiv.org/pdf/1703.03130.pdf
2020/6/19
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
議論はある?
どうやって有効だと検証した?
次に読むべき論文は?
Memory networks.(hard attention)
Neural machine translation by jointly learning to align and translate. (RNNsearch)
より大きなメモリが必要な場合はうまく利用できないかもしれない。
今後はattentionやhashingのマルチスケールの手法を探索していく。
bAbIという20種類の異なる形式の質問文に対して答えを返すタスクで従来のmemory
networksのerror率を15%改善した。
エンコーダーで入力文からベクトルmとcを作成する。デコーダーで入力からベクトルu
を作成する。まずmとuの内積を計算しソフトマックス関数に入れ、cのどこを参照すべ
きかの重みpを作る。その内積結果pとcのアダマール積をとり、埋め込んだベクトルの
語彙数方向に和をとる(o)。このoと元のuを足して最後に、重みWをかけることで既存の
文章を記憶し、質問に回答することができるモデルを作成した。
質問に回答するタスクでerror率が改善した。
End-to-endのモデルを作成することができた。
エンコーダーで入力を2種類のベクトルにエンコードし、片方でデコーダーからの入力
に重み付けをし、その2つの内積をattentionとしてもう片方のベクトルとアダマール積
をとり、合計することで、質問に答えるタスクのerror率を改善し、また従来ではhard
attentionを使用していたが、微分可能なsoft attentionを使用することでend-to-endなモデ
ルを作成した。
End-To-End Memory Networks
( 31 Mar 2015) Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, Rob Fergus
https://arxiv.org/pdf/1503.08895.pdf
2020/6/19
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
議論はある?
どうやって有効だと検証した?
次に読むべき論文は?
Aggregating local image descriptors into compact codes.(residual vectors)
層を深くしたときに起こる勾配消失の問題を解決したと考える。
ImageNetデータセットでVGG16を参考にして34層に深くしたものとその34層に
residualを加えたものを比較するとerror率が3.5%改善した。
ImageNetデータセットで152層のモデルを含む異なる深さのモデル6つをアンサンブル
したものでtop-5 error率が3.57%で先行研究より1.25%改善された。
residual learningとidentity mapping by shortcuts
先行研究では層を深くすると学習がうまくいかなかったが、152層のモデルでスコアを
改善することができた。
下記のresidual learningとidentity mapping by shortcuts を組み合わしたdeep residual learning
を作成した。
residual learnigはlayerによるoutputをh(x)とするとh(x) – xを学習させること。
identity mapping by shortcutsはより深い層の出力に対して、その手前の層の出力を間の層
を飛ばして加算するもの。
Deep Residual Learning for Image Recognition
( 10 Dec 2015) Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
https://arxiv.org/pdf/1512.03385.pdf
2020/6/19
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
議論はある?
どうやって有効だと検証した?
次に読むべき論文は?
GLUE:A Multi-Task Benchmark and Analysis Platform for Natural Language
Understanding. (GLUE)
Deep contextualized word representations. (ELMo)
無し
GLUEという自然言語理解の8つのタスクにおいて全てにおいて先行研究よりスコアが向
上した。SQuAD v1.1という質問と答えが含まれている文章が与えられ、質問に対する答
えを予測するタスクでもF1値が1.5%向上した。SQuAD v2.0というSQuAD v1.1に与えられ
た文章には答えが存在しないという選択肢が追加されたものでも5.1%向上した。SWAG
というある文章が与えられて、その続きとしてふさわしいものを4つの選択肢の中から
選ぶタスクでは8.3%向上した。
下記のmaskedLMとNext Sentence Predictionという2つの事前学習により、双方向性の事
前学習済みのモデルを作成することができた。
maskedLMという文章の15%の単語をmaskトークンに変え(そのうちの80%をmaskトーク
ンにし、10%をランダムな単語、10%をそのままにする。)、そのトークンを予測する。
Next Sentence Predictionという与えられた2文がつながっているかを予測するタスクを学
習する。(50%はつながっており、残りの50%はコーパスからのランダムな文である)
自然言語関連のタスクのスコアが軒並み向上した。
単方向性の深い構造のモデルや双方性の浅いモデルを教師無しの事前学習させ、転移学
習させることで、モデルの精度が向上することは示されていたが、双方向性の深い構造
のモデルでも転移学習することで精度が向上することが示された。
Bidirectional Encoder Representations from Transformersの略。
ラベル付けされていないテキストから双方向の表現を事前学習するように作られたモデ
ル。
タスク毎に入力と出力をタスク固有のものに変えるだけでfine-tuningが容易である。
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
( 11 Oct 2018) Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
https://arxiv.org/pdf/1810.04805.pdf
2020/6/19

Contenu connexe

En vedette

Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellSaba Software
 

En vedette (20)

Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
 

論文紹介

  • 1. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? 議論はある? どうやって有効だと検証した? 次に読むべき論文は? A structured self-attentive sentence embedding.(self-attention) Deep residual learning for image recognition.(residual connection) Layer normalization. Discussionは無し。 今後の展望として、テキスト以外の画像・音声・動画といった大容量の入出力について も「Transformer」を適用できるのではないかと考えている。 WMT 2014 Englishto-German translation taskにおいて28.4BLEUというスコアを出し、アン サンブルを含む既存の最良の結果より2BLEU以上高いスコアを出した。 また、WMT 2014 English-to-French translation taskにおいて41.8BLEUというシングルモデル の最高のスコアを出し、トレーニングに要した時間も8つのGPUで3.5日間(先行研究の 1/4のコスト)という最良のアンサンブルモデルと比べて短い時間であった。 エンコーダー・デコーダー構造で最も一般的に用いられているリカレント層を「multi- headed self-attention」に置き換えたこと。 翻訳タスクにおいてSeq2seqモデル(RNNを使ったもの)よりも精度が高い。また並列化が 可能であり、トレーニングに要する時間が大幅に改善されている。 時系列伝達モデルとしてRNNやCNNを使わず、attentionのみを利用したシンプルな構造 の「Transformer」を提案する。 Attention Is All You Need ( 12 Jun 2017 )Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin https://arxiv.org/pdf/1706.03762.pdf 2020/6/19
  • 2. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? 議論はある? どうやって有効だと検証した? 次に読むべき論文は? Attentive pooling networks. (attention) Long short-term memory-networks for machine reading. (self-attention)(違いはエンコ ーディングが先行研究ではベクトルであるが、本研究はペナルティ項をもつ行列であ る。) 今回の実験で内容が長い程、先行研究より良い結果を得ることができたので、離れた関 係をうまく捉えられていると考える。 今回のモデルは非常に単純であるので、より複雑なモデルにすることでLSTMの隠れ状態 に多くの操作を可能にすると考える。 今回のモデルでは下流の適用に大きく依存しているため、教師無し学習ではうまくいか ないと考える。 ツイッターに投稿されたツイートから5クラスに分割した投稿者の年齢を推定するタス クでaccuracyが80.45%で既存の双方向LSTMより精度が3%向上した。 Yelpという感情分析のタスク(レビューサイトに投稿されたレビューからその時に投稿 した評価(5クラス)を予測するタスク)でaccuracyが64.21%で既存の双方向LSTMより 精度が2.2%向上した。 既存の双方向LSTMにself-attention層を追加することで、離れた入力の関係も考慮するこ とができるようになった。 LSTMからの出力である隠れ状態ベクトルhに対してかけるattention(重み)を計算するのに h自身が使われる。 時系列データのタスクのaccuracyが向上した。 文のベクトル表現の作成時に「self-attention」を使用することで、従来のRNNでは考慮 することができなかった離れた入力の関係も考慮することができるモデルになった。 A structured self-attentive sentence embedding ( 9 Mar 2017 ) Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou & Yoshua Bengio https://arxiv.org/pdf/1703.03130.pdf 2020/6/19
  • 3. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? 議論はある? どうやって有効だと検証した? 次に読むべき論文は? Memory networks.(hard attention) Neural machine translation by jointly learning to align and translate. (RNNsearch) より大きなメモリが必要な場合はうまく利用できないかもしれない。 今後はattentionやhashingのマルチスケールの手法を探索していく。 bAbIという20種類の異なる形式の質問文に対して答えを返すタスクで従来のmemory networksのerror率を15%改善した。 エンコーダーで入力文からベクトルmとcを作成する。デコーダーで入力からベクトルu を作成する。まずmとuの内積を計算しソフトマックス関数に入れ、cのどこを参照すべ きかの重みpを作る。その内積結果pとcのアダマール積をとり、埋め込んだベクトルの 語彙数方向に和をとる(o)。このoと元のuを足して最後に、重みWをかけることで既存の 文章を記憶し、質問に回答することができるモデルを作成した。 質問に回答するタスクでerror率が改善した。 End-to-endのモデルを作成することができた。 エンコーダーで入力を2種類のベクトルにエンコードし、片方でデコーダーからの入力 に重み付けをし、その2つの内積をattentionとしてもう片方のベクトルとアダマール積 をとり、合計することで、質問に答えるタスクのerror率を改善し、また従来ではhard attentionを使用していたが、微分可能なsoft attentionを使用することでend-to-endなモデ ルを作成した。 End-To-End Memory Networks ( 31 Mar 2015) Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, Rob Fergus https://arxiv.org/pdf/1503.08895.pdf 2020/6/19
  • 4. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? 議論はある? どうやって有効だと検証した? 次に読むべき論文は? Aggregating local image descriptors into compact codes.(residual vectors) 層を深くしたときに起こる勾配消失の問題を解決したと考える。 ImageNetデータセットでVGG16を参考にして34層に深くしたものとその34層に residualを加えたものを比較するとerror率が3.5%改善した。 ImageNetデータセットで152層のモデルを含む異なる深さのモデル6つをアンサンブル したものでtop-5 error率が3.57%で先行研究より1.25%改善された。 residual learningとidentity mapping by shortcuts 先行研究では層を深くすると学習がうまくいかなかったが、152層のモデルでスコアを 改善することができた。 下記のresidual learningとidentity mapping by shortcuts を組み合わしたdeep residual learning を作成した。 residual learnigはlayerによるoutputをh(x)とするとh(x) – xを学習させること。 identity mapping by shortcutsはより深い層の出力に対して、その手前の層の出力を間の層 を飛ばして加算するもの。 Deep Residual Learning for Image Recognition ( 10 Dec 2015) Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun https://arxiv.org/pdf/1512.03385.pdf 2020/6/19
  • 5. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? 議論はある? どうやって有効だと検証した? 次に読むべき論文は? GLUE:A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. (GLUE) Deep contextualized word representations. (ELMo) 無し GLUEという自然言語理解の8つのタスクにおいて全てにおいて先行研究よりスコアが向 上した。SQuAD v1.1という質問と答えが含まれている文章が与えられ、質問に対する答 えを予測するタスクでもF1値が1.5%向上した。SQuAD v2.0というSQuAD v1.1に与えられ た文章には答えが存在しないという選択肢が追加されたものでも5.1%向上した。SWAG というある文章が与えられて、その続きとしてふさわしいものを4つの選択肢の中から 選ぶタスクでは8.3%向上した。 下記のmaskedLMとNext Sentence Predictionという2つの事前学習により、双方向性の事 前学習済みのモデルを作成することができた。 maskedLMという文章の15%の単語をmaskトークンに変え(そのうちの80%をmaskトーク ンにし、10%をランダムな単語、10%をそのままにする。)、そのトークンを予測する。 Next Sentence Predictionという与えられた2文がつながっているかを予測するタスクを学 習する。(50%はつながっており、残りの50%はコーパスからのランダムな文である) 自然言語関連のタスクのスコアが軒並み向上した。 単方向性の深い構造のモデルや双方性の浅いモデルを教師無しの事前学習させ、転移学 習させることで、モデルの精度が向上することは示されていたが、双方向性の深い構造 のモデルでも転移学習することで精度が向上することが示された。 Bidirectional Encoder Representations from Transformersの略。 ラベル付けされていないテキストから双方向の表現を事前学習するように作られたモデ ル。 タスク毎に入力と出力をタスク固有のものに変えるだけでfine-tuningが容易である。 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding ( 11 Oct 2018) Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova https://arxiv.org/pdf/1810.04805.pdf 2020/6/19