Soumettre la recherche
Mettre en ligne
論文紹介
•
0 j'aime
•
65 vues
S
shotaishii2
Suivre
Attention Is All You Need
Lire moins
Lire la suite
Ingénierie
Signaler
Partager
Signaler
Partager
1 sur 5
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
テスト駆動開発入門 - C4K Meetup#2
テスト駆動開発入門 - C4K Meetup#2
Masashi Shibata
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Recommandé
テスト駆動開発入門 - C4K Meetup#2
テスト駆動開発入門 - C4K Meetup#2
Masashi Shibata
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
Introduction to Data Science
Introduction to Data Science
Christy Abraham Joy
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
Vit Horky
The six step guide to practical project management
The six step guide to practical project management
MindGenius
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
ChatGPT webinar slides
ChatGPT webinar slides
Alireza Esmikhani
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Project for Public Spaces & National Center for Biking and Walking
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
DevGAMM Conference
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
Erica Santiago
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Saba Software
Contenu connexe
En vedette
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
Introduction to Data Science
Introduction to Data Science
Christy Abraham Joy
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
Vit Horky
The six step guide to practical project management
The six step guide to practical project management
MindGenius
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
ChatGPT webinar slides
ChatGPT webinar slides
Alireza Esmikhani
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Project for Public Spaces & National Center for Biking and Walking
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
DevGAMM Conference
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
Erica Santiago
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Saba Software
En vedette
(20)
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
How to have difficult conversations
How to have difficult conversations
Introduction to Data Science
Introduction to Data Science
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
The six step guide to practical project management
The six step guide to practical project management
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
ChatGPT webinar slides
ChatGPT webinar slides
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
論文紹介
1.
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? 議論はある? どうやって有効だと検証した? 次に読むべき論文は? A structured self-attentive
sentence embedding.(self-attention) Deep residual learning for image recognition.(residual connection) Layer normalization. Discussionは無し。 今後の展望として、テキスト以外の画像・音声・動画といった大容量の入出力について も「Transformer」を適用できるのではないかと考えている。 WMT 2014 Englishto-German translation taskにおいて28.4BLEUというスコアを出し、アン サンブルを含む既存の最良の結果より2BLEU以上高いスコアを出した。 また、WMT 2014 English-to-French translation taskにおいて41.8BLEUというシングルモデル の最高のスコアを出し、トレーニングに要した時間も8つのGPUで3.5日間(先行研究の 1/4のコスト)という最良のアンサンブルモデルと比べて短い時間であった。 エンコーダー・デコーダー構造で最も一般的に用いられているリカレント層を「multi- headed self-attention」に置き換えたこと。 翻訳タスクにおいてSeq2seqモデル(RNNを使ったもの)よりも精度が高い。また並列化が 可能であり、トレーニングに要する時間が大幅に改善されている。 時系列伝達モデルとしてRNNやCNNを使わず、attentionのみを利用したシンプルな構造 の「Transformer」を提案する。 Attention Is All You Need ( 12 Jun 2017 )Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin https://arxiv.org/pdf/1706.03762.pdf 2020/6/19
2.
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? 議論はある? どうやって有効だと検証した? 次に読むべき論文は? Attentive pooling networks.
(attention) Long short-term memory-networks for machine reading. (self-attention)(違いはエンコ ーディングが先行研究ではベクトルであるが、本研究はペナルティ項をもつ行列であ る。) 今回の実験で内容が長い程、先行研究より良い結果を得ることができたので、離れた関 係をうまく捉えられていると考える。 今回のモデルは非常に単純であるので、より複雑なモデルにすることでLSTMの隠れ状態 に多くの操作を可能にすると考える。 今回のモデルでは下流の適用に大きく依存しているため、教師無し学習ではうまくいか ないと考える。 ツイッターに投稿されたツイートから5クラスに分割した投稿者の年齢を推定するタス クでaccuracyが80.45%で既存の双方向LSTMより精度が3%向上した。 Yelpという感情分析のタスク(レビューサイトに投稿されたレビューからその時に投稿 した評価(5クラス)を予測するタスク)でaccuracyが64.21%で既存の双方向LSTMより 精度が2.2%向上した。 既存の双方向LSTMにself-attention層を追加することで、離れた入力の関係も考慮するこ とができるようになった。 LSTMからの出力である隠れ状態ベクトルhに対してかけるattention(重み)を計算するのに h自身が使われる。 時系列データのタスクのaccuracyが向上した。 文のベクトル表現の作成時に「self-attention」を使用することで、従来のRNNでは考慮 することができなかった離れた入力の関係も考慮することができるモデルになった。 A structured self-attentive sentence embedding ( 9 Mar 2017 ) Zhouhan Lin, Minwei Feng, Cicero Nogueira dos Santos, Mo Yu, Bing Xiang, Bowen Zhou & Yoshua Bengio https://arxiv.org/pdf/1703.03130.pdf 2020/6/19
3.
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? 議論はある? どうやって有効だと検証した? 次に読むべき論文は? Memory networks.(hard attention) Neural
machine translation by jointly learning to align and translate. (RNNsearch) より大きなメモリが必要な場合はうまく利用できないかもしれない。 今後はattentionやhashingのマルチスケールの手法を探索していく。 bAbIという20種類の異なる形式の質問文に対して答えを返すタスクで従来のmemory networksのerror率を15%改善した。 エンコーダーで入力文からベクトルmとcを作成する。デコーダーで入力からベクトルu を作成する。まずmとuの内積を計算しソフトマックス関数に入れ、cのどこを参照すべ きかの重みpを作る。その内積結果pとcのアダマール積をとり、埋め込んだベクトルの 語彙数方向に和をとる(o)。このoと元のuを足して最後に、重みWをかけることで既存の 文章を記憶し、質問に回答することができるモデルを作成した。 質問に回答するタスクでerror率が改善した。 End-to-endのモデルを作成することができた。 エンコーダーで入力を2種類のベクトルにエンコードし、片方でデコーダーからの入力 に重み付けをし、その2つの内積をattentionとしてもう片方のベクトルとアダマール積 をとり、合計することで、質問に答えるタスクのerror率を改善し、また従来ではhard attentionを使用していたが、微分可能なsoft attentionを使用することでend-to-endなモデ ルを作成した。 End-To-End Memory Networks ( 31 Mar 2015) Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, Rob Fergus https://arxiv.org/pdf/1503.08895.pdf 2020/6/19
4.
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? 議論はある? どうやって有効だと検証した? 次に読むべき論文は? Aggregating local image
descriptors into compact codes.(residual vectors) 層を深くしたときに起こる勾配消失の問題を解決したと考える。 ImageNetデータセットでVGG16を参考にして34層に深くしたものとその34層に residualを加えたものを比較するとerror率が3.5%改善した。 ImageNetデータセットで152層のモデルを含む異なる深さのモデル6つをアンサンブル したものでtop-5 error率が3.57%で先行研究より1.25%改善された。 residual learningとidentity mapping by shortcuts 先行研究では層を深くすると学習がうまくいかなかったが、152層のモデルでスコアを 改善することができた。 下記のresidual learningとidentity mapping by shortcuts を組み合わしたdeep residual learning を作成した。 residual learnigはlayerによるoutputをh(x)とするとh(x) – xを学習させること。 identity mapping by shortcutsはより深い層の出力に対して、その手前の層の出力を間の層 を飛ばして加算するもの。 Deep Residual Learning for Image Recognition ( 10 Dec 2015) Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun https://arxiv.org/pdf/1512.03385.pdf 2020/6/19
5.
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? 議論はある? どうやって有効だと検証した? 次に読むべき論文は? GLUE:A Multi-Task Benchmark
and Analysis Platform for Natural Language Understanding. (GLUE) Deep contextualized word representations. (ELMo) 無し GLUEという自然言語理解の8つのタスクにおいて全てにおいて先行研究よりスコアが向 上した。SQuAD v1.1という質問と答えが含まれている文章が与えられ、質問に対する答 えを予測するタスクでもF1値が1.5%向上した。SQuAD v2.0というSQuAD v1.1に与えられ た文章には答えが存在しないという選択肢が追加されたものでも5.1%向上した。SWAG というある文章が与えられて、その続きとしてふさわしいものを4つの選択肢の中から 選ぶタスクでは8.3%向上した。 下記のmaskedLMとNext Sentence Predictionという2つの事前学習により、双方向性の事 前学習済みのモデルを作成することができた。 maskedLMという文章の15%の単語をmaskトークンに変え(そのうちの80%をmaskトーク ンにし、10%をランダムな単語、10%をそのままにする。)、そのトークンを予測する。 Next Sentence Predictionという与えられた2文がつながっているかを予測するタスクを学 習する。(50%はつながっており、残りの50%はコーパスからのランダムな文である) 自然言語関連のタスクのスコアが軒並み向上した。 単方向性の深い構造のモデルや双方性の浅いモデルを教師無しの事前学習させ、転移学 習させることで、モデルの精度が向上することは示されていたが、双方向性の深い構造 のモデルでも転移学習することで精度が向上することが示された。 Bidirectional Encoder Representations from Transformersの略。 ラベル付けされていないテキストから双方向の表現を事前学習するように作られたモデ ル。 タスク毎に入力と出力をタスク固有のものに変えるだけでfine-tuningが容易である。 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding ( 11 Oct 2018) Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova https://arxiv.org/pdf/1810.04805.pdf 2020/6/19
Télécharger maintenant