SlideShare une entreprise Scribd logo
1  sur  19
Télécharger pour lire hors ligne
MASS: Masked Sequence to Sequence
Pre-training for Language Generation
huffon
Contents
▪ Abstract
▪ Pre-training method
▪ General pre-training framework
▪ Experiment on language generation tasks
▪ Machine Translation
▪ Abstractive Summarization
▪ Conversational response generation
▪ Conclusion and Future work
MAAS: Masked Sequence to Sequence Pre-training for Language Generation
Abstract
▪ “Pre-training”은 2018년 이후 자연어 처리 분야에서 가장 활발한 연구가 이루어지는 주제 중 하나
▪ 그 중, Google이 내놓은 BERT와 XLNet은 특히 자연어 이해 (NLU) Task에서 엄청난 성공을 거둔 모델들
▪ e.g.) Sentiment Classification, Natural Language Inference, Machine Reading Comprehension …
▪ 그러나 NLP에는 NLU Task 외에도 Sequence-to-Sequence를 기반으로 하는 다양한 자연어 생성 Task들이 있음
▪ e.g) Machine Translation, Abstract Text Summarization, Conversational Response Generation,
Question Answering, Text Style Transfer …
▪ 이러한 자연어 생성 Task를 위해서는 “Encoder-Attention-Decoder” 구조의 모델들이 지배적으로 사용되고 있음
▪ 인코더는 Source sequence “X”를 Input으로 받은 후, 이를 hidden representations sequence로 변형
▪ 디코더는 인코더로부터 hidden representations sequence를 전달 받아 Target Sequence “Y”를 생성하며,
이 때 Attention mechanism이 학습한 Input에 대한 정보를 함께 참조
Abstract: What is Encoder-attention-Decoder Framework?
▪ BERT(좌측)와 XLNet은 Language Understanding을 위해 인코더를 Pre-train하는 반면,
GPT(우측)는 Language Modeling을 위해 디코더를 Pre-train 시키는 구조를 지니고 있음
▪ 즉, 이전 모델들의 환경에서는 인코더, Attention 메커니즘 그리고 디코더가 함께 훈련될 수 없음
▪ 주지하다시피 Attention 메커니즘은 Language generation에서 매우 중요한 요소이기 때문에 이를 따로 학습시키지 않는
BERT나 XLNet, 그리고 GPT는 Language generation Task에 있어 최적의 성능을 발휘할 수가 없음
Abstract: Previous works(BERT, XLNet and GPT)
A new pre-training method
▪ Sequence to Sequence 기반의 Language Generation 문제 해결을 목표로 새로운 Pre-training 기법을 고안 !
▪ 우리가 제시하는 새로운 모델 MASS는 MAsked Sequence to Sequence Pre-training의 약자로,
: Input에서 k 개의 토큰 조각을 임의로 지정해 마스킹 한 후, 마스킹 된 해당 조각들을
Encoder-attention-Decoder Framework를 거쳐 예측하도록 훈련시키는 Pre-training 기법
▪ e.g.) 인코더는 3, 4, 5, 6번째 토큰이 마스킹 된 Input sequence의 hidden representations을 생성하고,
디코더는 인코더 측에서 마스킹 된 토큰들의 예측을 수행 (이때, 인코더에서 마스킹 되지 않았던 다른 토큰들이 마스킹 됨)
A new pre-training method: Three advantages of MASS
1. 인코더 측에서 마스킹 되지 않은 토큰들이 디코더 측에서 마스킹 됨에 따라, 디코더는 인코더가 제공한
hidden representation과 Attention 정보만을 참고해 마스킹 된 토큰들을 예측해야 하게 되고
이는 Encoder-attention-Decoder가 함께 Pre-train 될 수 있는 환경을 제공하게 됨
2. 인코더는 디코더에 보다 유용한 정보를 제공하기 위해 인코더 측에서 마스킹되지 않은 토큰들의 정보를
잘 추출할 수 있도록 학습하고, 이를 통해 Language Understanding 능력이 개선되게 됨
3. 디코더는 인코더 측에서 마스킹 된 토큰들에 대한 예측을 “연속적으로” 수행해야 하기 때문에
Language Modeling 능력을 학습하게 됨
General Pre-training Framework
▪ 모델 MASS에는 아주 중요한 하이퍼 파라미터 “k”가 있는데, 이는 인코더에서 “마스킹되는 토큰 개수”를 의미
▪ 해당 하이퍼 파라미터 k를 조정함에 따라 MASS는 BERT의 Masked LM과 GPT의 Standard LM을 모두 구현할 수 있음
▪ [Masked LM]: k=1일 때 인코더 측에서는 하나의 토큰이 마스킹되고, 디코더는 마스킹 된 하나의 토큰을 예측
▪ 즉, 별다른 Input Information 없이 하나의 마스킹 토큰을 예측하는 해당 디코더는 BERT의 Masked LM과 같아짐
General Pre-training Framework
▪ [Standard LM]: 하이퍼 파라미터 k가 Input 문장의 전체 길이인 m과 같을 때 인코더 측의 모든 토큰들이 마스킹 됨
▪ 디코더는 인코더로부터 어떠한 정보도 부여 받지 않은 채 모든 토큰을 예측해야 하므로, GPT의 Standard LM과 같아짐
General Pre-training Framework: The probability formulation
▪ 앞서 언급한 하이퍼 파라미터 k의 변화에 따른 MASS의 확률 수식은 위의 표와 같음
▪ m: Input sequence의 전체 길이 | u: 마스킹 된 fragment의 시작점 | v: 마스킹 된 fragment의 끝점
X_u:v: u부터 v까지의 fragment | X_\u:v: u부터 v까지 마스킹 된 Input sequence
▪ k=1이면 BERT의 masked LM과 확률 수식이 같아지고, k=m이면 GPT의 standard LM과 확률 수식이 같아짐
General Pre-training Framework: The probability formulation
▪ 위 그림들은 하이퍼 파라미터 k를 다르게 설정해가며, MASS 성능에 대한 다양한 실험을 수행한 결과
▪ 경험적 실험을 통해 k가 “문장의 절반 정도”의 크기에 해당할 때, downstream task에서 가장 좋은 성능을 보임을 알게 됨
▪ 문장 내 절반의 토큰을 마스킹하는 것이 인코더와 디코더의 Pre-training에 있어 “적절한 균형”을 제공해주기 때문
▪ 그러나 k가 1 (like. BERT) 혹은 m (like. GPT) 이었을 때는 downstream task에서 좋은 성능이 나오지 않았는데,
이는 MASS가 Sequence to Sequence 기반의 Language Generation Task에 이점을 지니고 있음을 반증 !
Experiment on language generation tasks: Pre-training
▪ 기본적으로 MASS는 Pre-training을 위해 monolingual 데이터를 필요로 함 ( e.g. Wikipedia data )
▪ 그러나 기계번역과 같은 Cross-lingual Task와 텍스트 요약과 같은 Monolingual Task를 모두 수행할 수 있음
▪ 영어-불어 번역과 같은 Cross-lingual Task의 수행을 위해서는 Pre-training으로 하나의 MASS 모델에
‘English-English’와 ‘French-French’ 데이터를 모두 학습시키는 방법을 사용
▪ 이때, 두 언어를 구분 짓기 위해 “Language embedding” 이라는 정보를 추가적으로 더해 줌
▪ Pre-training 이후에는 MASS의 성능을 입증하기 위해 [ Unsupervised Machine Translation, Low-resource
Machine Translation, Abstractive Summarization, Conversational Response Generation ]과 같은
Language Generation downstream task들에 대해 Fine-tuning을 수행
Experiment: Unsupervised Machine Translation
▪ 첫 번째로 Unsupervised Machine Translation Task에 있어 이전 모델들, 특히 최근까지 SOTA였던
Facebook의 XLM(Cross-lingual Language Model) 모델과 MASS의 성능 비교를 수행하였음
▪ Facebook의 XLM은 인코더와 디코더를 각각 BERT의 Masked LM과 standard LM으로 Pre-train 시킨 모델
▪ MASS는 6개의 기계번역 Task에 있어 XLM을 능가하는 성능을 보이며 SOTA를 기록
Experiment: Low-resource Machine Translation
▪ Low-resource Machine Translation: bilingual 트레이닝 데이터셋이 부족한 환경에서의 기계번역
▪ [WMT14 English-French], [WMT16 English-German, English-Romanian] 데이터셋을
10K, 100K, 1M의 사이즈로 늘려가며 Low-resource 환경에서의 기계번역 시나리오 테스트
▪ 그림에서 확인할 수 있듯 MASS는 모든 스케일에서 Low-resource MT의 baseline 성능을 능가했으며,
특히 이러한 성능의 개선은 데이터셋의 사이즈가 작을수록 더 두드러지게 나타남 ( see result of10K )
Experiment: Abstractive Summarization
▪ Pre-trained BERT를 인코더로 Pre-trained Language Model을 디코더로 사용한 BERT+LM 모델과
DAE(Denoising Auto-Encoder), MASS의 Abstractive Summarization 성능을 Gigaword Corpus에 대해 비교
▪ 표에서 확인할 수 있듯, MASS는 BERT+LM과 DAE 두 모델의 Abstractive Summarization 성능을 모두 능가
Experiment: Conversational Response Generation
▪ Abstractive Summarization 성능 비교에 사용되었던 BERT+LM 모델과 Baseline, 그리고 MASS의
Conversational Response Generation 성능을 Cornell Movie Dialog Corpus에 대해 비교
▪ 마찬가지로 MASS가 BERT+LM 모델과 Baseline 보다 낮은 Perplexity (PPL)를 기록하며 좋은 성능을 보여줌
Conclusion and Future work
▪ MASS는 Sequence to Sequence 기반의 다양한 Language generation Task에 있어 좋은 성능을 기록
▪ Language generation에서 좋은 성능을 기록한 MASS가 BERT와 XLNet이 뛰어난 결과를 기록한
Natural Language Understanding Task에서도 좋은 성능을 보일 것인지 차후 실험해볼 예정
▪ 또한 MASS 모델이 Image와 Video와 같은 NLP와 다른 도메인에서도 Sequence to Sequence 기반의
생성 Task를 수행해낼 수 있을지에 대한 추가 실험 역시 이루어질 것
<EOP>

Contenu connexe

Tendances

Machine translation survey vol2
Machine translation survey   vol2Machine translation survey   vol2
Machine translation survey vol2gohyunwoong
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지deepseaswjh
 
CS294-112 Lecture 13
CS294-112 Lecture 13CS294-112 Lecture 13
CS294-112 Lecture 13Gyubin Son
 
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...gohyunwoong
 
Neural Machine Translation 기반의 영어-일본어 자동번역
Neural Machine Translation 기반의 영어-일본어 자동번역Neural Machine Translation 기반의 영어-일본어 자동번역
Neural Machine Translation 기반의 영어-일본어 자동번역NAVER LABS
 
Denoising auto encoders(d a)
Denoising auto encoders(d a)Denoising auto encoders(d a)
Denoising auto encoders(d a)Tae Young Lee
 
A Beginner's guide to understanding Autoencoder
A Beginner's guide to understanding AutoencoderA Beginner's guide to understanding Autoencoder
A Beginner's guide to understanding AutoencoderLee Seungeun
 
문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine Translation문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine TranslationNAVER LABS
 
2017 tensor flow dev summit
2017 tensor flow dev summit2017 tensor flow dev summit
2017 tensor flow dev summitTae Young Lee
 
DeBERTA : Decoding-Enhanced BERT with Disentangled Attention
DeBERTA : Decoding-Enhanced BERT with Disentangled AttentionDeBERTA : Decoding-Enhanced BERT with Disentangled Attention
DeBERTA : Decoding-Enhanced BERT with Disentangled Attentiontaeseon ryu
 
Attention is all you need 설명
Attention is all you need 설명Attention is all you need 설명
Attention is all you need 설명Junho Lee
 
Energy based models and boltzmann machines - v2.0
Energy based models and boltzmann machines - v2.0Energy based models and boltzmann machines - v2.0
Energy based models and boltzmann machines - v2.0Soowan Lee
 
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Haezoom Inc.
 
네이버 NLP Challenge 후기
네이버 NLP Challenge 후기네이버 NLP Challenge 후기
네이버 NLP Challenge 후기Jangwon Park
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향LGCNSairesearch
 
Papago/N2MT 개발이야기
Papago/N2MT 개발이야기Papago/N2MT 개발이야기
Papago/N2MT 개발이야기NAVER D2
 
랩탑으로 tensorflow 도전하기 - tutorial
랩탑으로 tensorflow 도전하기 - tutorial랩탑으로 tensorflow 도전하기 - tutorial
랩탑으로 tensorflow 도전하기 - tutorialLee Seungeun
 

Tendances (20)

Machine translation survey vol2
Machine translation survey   vol2Machine translation survey   vol2
Machine translation survey vol2
 
딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지딥러닝 자연어처리 - RNN에서 BERT까지
딥러닝 자연어처리 - RNN에서 BERT까지
 
CS294-112 Lecture 13
CS294-112 Lecture 13CS294-112 Lecture 13
CS294-112 Lecture 13
 
GPT-X
GPT-XGPT-X
GPT-X
 
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...Bag of Tricks for Image Classification  with Convolutional Neural Networks (C...
Bag of Tricks for Image Classification with Convolutional Neural Networks (C...
 
Neural Machine Translation 기반의 영어-일본어 자동번역
Neural Machine Translation 기반의 영어-일본어 자동번역Neural Machine Translation 기반의 영어-일본어 자동번역
Neural Machine Translation 기반의 영어-일본어 자동번역
 
파이썬과 자연어 5 | 딥러닝
파이썬과 자연어 5 | 딥러닝파이썬과 자연어 5 | 딥러닝
파이썬과 자연어 5 | 딥러닝
 
Denoising auto encoders(d a)
Denoising auto encoders(d a)Denoising auto encoders(d a)
Denoising auto encoders(d a)
 
A Beginner's guide to understanding Autoencoder
A Beginner's guide to understanding AutoencoderA Beginner's guide to understanding Autoencoder
A Beginner's guide to understanding Autoencoder
 
문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine Translation문자 단위의 Neural Machine Translation
문자 단위의 Neural Machine Translation
 
2017 tensor flow dev summit
2017 tensor flow dev summit2017 tensor flow dev summit
2017 tensor flow dev summit
 
DeBERTA : Decoding-Enhanced BERT with Disentangled Attention
DeBERTA : Decoding-Enhanced BERT with Disentangled AttentionDeBERTA : Decoding-Enhanced BERT with Disentangled Attention
DeBERTA : Decoding-Enhanced BERT with Disentangled Attention
 
Attention is all you need 설명
Attention is all you need 설명Attention is all you need 설명
Attention is all you need 설명
 
Mt
MtMt
Mt
 
Energy based models and boltzmann machines - v2.0
Energy based models and boltzmann machines - v2.0Energy based models and boltzmann machines - v2.0
Energy based models and boltzmann machines - v2.0
 
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...
 
네이버 NLP Challenge 후기
네이버 NLP Challenge 후기네이버 NLP Challenge 후기
네이버 NLP Challenge 후기
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향
 
Papago/N2MT 개발이야기
Papago/N2MT 개발이야기Papago/N2MT 개발이야기
Papago/N2MT 개발이야기
 
랩탑으로 tensorflow 도전하기 - tutorial
랩탑으로 tensorflow 도전하기 - tutorial랩탑으로 tensorflow 도전하기 - tutorial
랩탑으로 tensorflow 도전하기 - tutorial
 

Similaire à Masked Sequence to Sequence Pre-training for Language Generation

Improving Language Understanding by Generative Pre-Training
Improving Language Understanding by Generative Pre-TrainingImproving Language Understanding by Generative Pre-Training
Improving Language Understanding by Generative Pre-Trainingpko89403
 
[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경NAVER D2
 
딥러닝을 위한 Tensor flow(skt academy)
딥러닝을 위한 Tensor flow(skt academy)딥러닝을 위한 Tensor flow(skt academy)
딥러닝을 위한 Tensor flow(skt academy)Tae Young Lee
 
NLU Tech Talk with KorBERT
NLU Tech Talk with KorBERTNLU Tech Talk with KorBERT
NLU Tech Talk with KorBERTLGCNSairesearch
 
Assembly 스터디 1
Assembly 스터디 1Assembly 스터디 1
Assembly 스터디 1Jinkyoung Kim
 
검색엔진에 적용된 ChatGPT
검색엔진에 적용된 ChatGPT검색엔진에 적용된 ChatGPT
검색엔진에 적용된 ChatGPTTae Young Lee
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템NAVER D2
 
LSTM 네트워크 이해하기
LSTM 네트워크 이해하기LSTM 네트워크 이해하기
LSTM 네트워크 이해하기Mad Scientists
 
하둡 타입과 포맷
하둡 타입과 포맷하둡 타입과 포맷
하둡 타입과 포맷진호 박
 
Exploring Deep Learning Acceleration Technology Embedded in LLMs
Exploring Deep Learning Acceleration Technology Embedded in LLMsExploring Deep Learning Acceleration Technology Embedded in LLMs
Exploring Deep Learning Acceleration Technology Embedded in LLMsTae Young Lee
 
deep encoder, shallow decoder reevaluating non-autoregressive machine transl...
deep encoder, shallow decoder  reevaluating non-autoregressive machine transl...deep encoder, shallow decoder  reevaluating non-autoregressive machine transl...
deep encoder, shallow decoder reevaluating non-autoregressive machine transl...taeseon ryu
 
ECMAScript 6의 새로운 것들!
ECMAScript 6의 새로운 것들!ECMAScript 6의 새로운 것들!
ECMAScript 6의 새로운 것들!WooYoung Cho
 
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...hoondong kim
 
DP 알고리즘에 대해 알아보자.pdf
DP 알고리즘에 대해 알아보자.pdfDP 알고리즘에 대해 알아보자.pdf
DP 알고리즘에 대해 알아보자.pdfHo Jeong Im
 
PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기찬희 이
 
Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?
Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?
Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?Lee Gyeong Hoon
 

Similaire à Masked Sequence to Sequence Pre-training for Language Generation (19)

자연어5 | 1차강의
자연어5 | 1차강의자연어5 | 1차강의
자연어5 | 1차강의
 
PaLM Paper Review
PaLM Paper ReviewPaLM Paper Review
PaLM Paper Review
 
Improving Language Understanding by Generative Pre-Training
Improving Language Understanding by Generative Pre-TrainingImproving Language Understanding by Generative Pre-Training
Improving Language Understanding by Generative Pre-Training
 
[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경[224] backend 개발자의 neural machine translation 개발기 김상경
[224] backend 개발자의 neural machine translation 개발기 김상경
 
딥러닝을 위한 Tensor flow(skt academy)
딥러닝을 위한 Tensor flow(skt academy)딥러닝을 위한 Tensor flow(skt academy)
딥러닝을 위한 Tensor flow(skt academy)
 
NLU Tech Talk with KorBERT
NLU Tech Talk with KorBERTNLU Tech Talk with KorBERT
NLU Tech Talk with KorBERT
 
Assembly 스터디 1
Assembly 스터디 1Assembly 스터디 1
Assembly 스터디 1
 
검색엔진에 적용된 ChatGPT
검색엔진에 적용된 ChatGPT검색엔진에 적용된 ChatGPT
검색엔진에 적용된 ChatGPT
 
Albert
AlbertAlbert
Albert
 
[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템[224] 번역 모델 기반_질의_교정_시스템
[224] 번역 모델 기반_질의_교정_시스템
 
LSTM 네트워크 이해하기
LSTM 네트워크 이해하기LSTM 네트워크 이해하기
LSTM 네트워크 이해하기
 
하둡 타입과 포맷
하둡 타입과 포맷하둡 타입과 포맷
하둡 타입과 포맷
 
Exploring Deep Learning Acceleration Technology Embedded in LLMs
Exploring Deep Learning Acceleration Technology Embedded in LLMsExploring Deep Learning Acceleration Technology Embedded in LLMs
Exploring Deep Learning Acceleration Technology Embedded in LLMs
 
deep encoder, shallow decoder reevaluating non-autoregressive machine transl...
deep encoder, shallow decoder  reevaluating non-autoregressive machine transl...deep encoder, shallow decoder  reevaluating non-autoregressive machine transl...
deep encoder, shallow decoder reevaluating non-autoregressive machine transl...
 
ECMAScript 6의 새로운 것들!
ECMAScript 6의 새로운 것들!ECMAScript 6의 새로운 것들!
ECMAScript 6의 새로운 것들!
 
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
Auto Scalable 한 Deep Learning Production 을 위한 AI Serving Infra 구성 및 AI DevOps...
 
DP 알고리즘에 대해 알아보자.pdf
DP 알고리즘에 대해 알아보자.pdfDP 알고리즘에 대해 알아보자.pdf
DP 알고리즘에 대해 알아보자.pdf
 
PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기PySpark 배우기 Ch 06. ML 패키지 소개하기
PySpark 배우기 Ch 06. ML 패키지 소개하기
 
Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?
Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?
Where to Apply Dropout in Recurrent Neural Networks for Handwriting Recognition?
 

Dernier

캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionKim Daeun
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Wonjun Hwang
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Kim Daeun
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)Tae Young Lee
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Wonjun Hwang
 

Dernier (6)

캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차캐드앤그래픽스 2024년 5월호 목차
캐드앤그래픽스 2024년 5월호 목차
 
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution DetectionMOODv2 : Masked Image Modeling for Out-of-Distribution Detection
MOODv2 : Masked Image Modeling for Out-of-Distribution Detection
 
Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)Console API (Kitworks Team Study 백혜인 발표자료)
Console API (Kitworks Team Study 백혜인 발표자료)
 
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
Continual Active Learning for Efficient Adaptation of Machine LearningModels ...
 
A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)A future that integrates LLMs and LAMs (Symposium)
A future that integrates LLMs and LAMs (Symposium)
 
Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)Merge (Kitworks Team Study 이성수 발표자료 240426)
Merge (Kitworks Team Study 이성수 발표자료 240426)
 

Masked Sequence to Sequence Pre-training for Language Generation

  • 1. MASS: Masked Sequence to Sequence Pre-training for Language Generation huffon
  • 2. Contents ▪ Abstract ▪ Pre-training method ▪ General pre-training framework ▪ Experiment on language generation tasks ▪ Machine Translation ▪ Abstractive Summarization ▪ Conversational response generation ▪ Conclusion and Future work
  • 3. MAAS: Masked Sequence to Sequence Pre-training for Language Generation
  • 4. Abstract ▪ “Pre-training”은 2018년 이후 자연어 처리 분야에서 가장 활발한 연구가 이루어지는 주제 중 하나 ▪ 그 중, Google이 내놓은 BERT와 XLNet은 특히 자연어 이해 (NLU) Task에서 엄청난 성공을 거둔 모델들 ▪ e.g.) Sentiment Classification, Natural Language Inference, Machine Reading Comprehension … ▪ 그러나 NLP에는 NLU Task 외에도 Sequence-to-Sequence를 기반으로 하는 다양한 자연어 생성 Task들이 있음 ▪ e.g) Machine Translation, Abstract Text Summarization, Conversational Response Generation, Question Answering, Text Style Transfer … ▪ 이러한 자연어 생성 Task를 위해서는 “Encoder-Attention-Decoder” 구조의 모델들이 지배적으로 사용되고 있음
  • 5. ▪ 인코더는 Source sequence “X”를 Input으로 받은 후, 이를 hidden representations sequence로 변형 ▪ 디코더는 인코더로부터 hidden representations sequence를 전달 받아 Target Sequence “Y”를 생성하며, 이 때 Attention mechanism이 학습한 Input에 대한 정보를 함께 참조 Abstract: What is Encoder-attention-Decoder Framework?
  • 6. ▪ BERT(좌측)와 XLNet은 Language Understanding을 위해 인코더를 Pre-train하는 반면, GPT(우측)는 Language Modeling을 위해 디코더를 Pre-train 시키는 구조를 지니고 있음 ▪ 즉, 이전 모델들의 환경에서는 인코더, Attention 메커니즘 그리고 디코더가 함께 훈련될 수 없음 ▪ 주지하다시피 Attention 메커니즘은 Language generation에서 매우 중요한 요소이기 때문에 이를 따로 학습시키지 않는 BERT나 XLNet, 그리고 GPT는 Language generation Task에 있어 최적의 성능을 발휘할 수가 없음 Abstract: Previous works(BERT, XLNet and GPT)
  • 7. A new pre-training method ▪ Sequence to Sequence 기반의 Language Generation 문제 해결을 목표로 새로운 Pre-training 기법을 고안 ! ▪ 우리가 제시하는 새로운 모델 MASS는 MAsked Sequence to Sequence Pre-training의 약자로, : Input에서 k 개의 토큰 조각을 임의로 지정해 마스킹 한 후, 마스킹 된 해당 조각들을 Encoder-attention-Decoder Framework를 거쳐 예측하도록 훈련시키는 Pre-training 기법 ▪ e.g.) 인코더는 3, 4, 5, 6번째 토큰이 마스킹 된 Input sequence의 hidden representations을 생성하고, 디코더는 인코더 측에서 마스킹 된 토큰들의 예측을 수행 (이때, 인코더에서 마스킹 되지 않았던 다른 토큰들이 마스킹 됨)
  • 8. A new pre-training method: Three advantages of MASS 1. 인코더 측에서 마스킹 되지 않은 토큰들이 디코더 측에서 마스킹 됨에 따라, 디코더는 인코더가 제공한 hidden representation과 Attention 정보만을 참고해 마스킹 된 토큰들을 예측해야 하게 되고 이는 Encoder-attention-Decoder가 함께 Pre-train 될 수 있는 환경을 제공하게 됨 2. 인코더는 디코더에 보다 유용한 정보를 제공하기 위해 인코더 측에서 마스킹되지 않은 토큰들의 정보를 잘 추출할 수 있도록 학습하고, 이를 통해 Language Understanding 능력이 개선되게 됨 3. 디코더는 인코더 측에서 마스킹 된 토큰들에 대한 예측을 “연속적으로” 수행해야 하기 때문에 Language Modeling 능력을 학습하게 됨
  • 9. General Pre-training Framework ▪ 모델 MASS에는 아주 중요한 하이퍼 파라미터 “k”가 있는데, 이는 인코더에서 “마스킹되는 토큰 개수”를 의미 ▪ 해당 하이퍼 파라미터 k를 조정함에 따라 MASS는 BERT의 Masked LM과 GPT의 Standard LM을 모두 구현할 수 있음 ▪ [Masked LM]: k=1일 때 인코더 측에서는 하나의 토큰이 마스킹되고, 디코더는 마스킹 된 하나의 토큰을 예측 ▪ 즉, 별다른 Input Information 없이 하나의 마스킹 토큰을 예측하는 해당 디코더는 BERT의 Masked LM과 같아짐
  • 10. General Pre-training Framework ▪ [Standard LM]: 하이퍼 파라미터 k가 Input 문장의 전체 길이인 m과 같을 때 인코더 측의 모든 토큰들이 마스킹 됨 ▪ 디코더는 인코더로부터 어떠한 정보도 부여 받지 않은 채 모든 토큰을 예측해야 하므로, GPT의 Standard LM과 같아짐
  • 11. General Pre-training Framework: The probability formulation ▪ 앞서 언급한 하이퍼 파라미터 k의 변화에 따른 MASS의 확률 수식은 위의 표와 같음 ▪ m: Input sequence의 전체 길이 | u: 마스킹 된 fragment의 시작점 | v: 마스킹 된 fragment의 끝점 X_u:v: u부터 v까지의 fragment | X_\u:v: u부터 v까지 마스킹 된 Input sequence ▪ k=1이면 BERT의 masked LM과 확률 수식이 같아지고, k=m이면 GPT의 standard LM과 확률 수식이 같아짐
  • 12. General Pre-training Framework: The probability formulation ▪ 위 그림들은 하이퍼 파라미터 k를 다르게 설정해가며, MASS 성능에 대한 다양한 실험을 수행한 결과 ▪ 경험적 실험을 통해 k가 “문장의 절반 정도”의 크기에 해당할 때, downstream task에서 가장 좋은 성능을 보임을 알게 됨 ▪ 문장 내 절반의 토큰을 마스킹하는 것이 인코더와 디코더의 Pre-training에 있어 “적절한 균형”을 제공해주기 때문 ▪ 그러나 k가 1 (like. BERT) 혹은 m (like. GPT) 이었을 때는 downstream task에서 좋은 성능이 나오지 않았는데, 이는 MASS가 Sequence to Sequence 기반의 Language Generation Task에 이점을 지니고 있음을 반증 !
  • 13. Experiment on language generation tasks: Pre-training ▪ 기본적으로 MASS는 Pre-training을 위해 monolingual 데이터를 필요로 함 ( e.g. Wikipedia data ) ▪ 그러나 기계번역과 같은 Cross-lingual Task와 텍스트 요약과 같은 Monolingual Task를 모두 수행할 수 있음 ▪ 영어-불어 번역과 같은 Cross-lingual Task의 수행을 위해서는 Pre-training으로 하나의 MASS 모델에 ‘English-English’와 ‘French-French’ 데이터를 모두 학습시키는 방법을 사용 ▪ 이때, 두 언어를 구분 짓기 위해 “Language embedding” 이라는 정보를 추가적으로 더해 줌 ▪ Pre-training 이후에는 MASS의 성능을 입증하기 위해 [ Unsupervised Machine Translation, Low-resource Machine Translation, Abstractive Summarization, Conversational Response Generation ]과 같은 Language Generation downstream task들에 대해 Fine-tuning을 수행
  • 14. Experiment: Unsupervised Machine Translation ▪ 첫 번째로 Unsupervised Machine Translation Task에 있어 이전 모델들, 특히 최근까지 SOTA였던 Facebook의 XLM(Cross-lingual Language Model) 모델과 MASS의 성능 비교를 수행하였음 ▪ Facebook의 XLM은 인코더와 디코더를 각각 BERT의 Masked LM과 standard LM으로 Pre-train 시킨 모델 ▪ MASS는 6개의 기계번역 Task에 있어 XLM을 능가하는 성능을 보이며 SOTA를 기록
  • 15. Experiment: Low-resource Machine Translation ▪ Low-resource Machine Translation: bilingual 트레이닝 데이터셋이 부족한 환경에서의 기계번역 ▪ [WMT14 English-French], [WMT16 English-German, English-Romanian] 데이터셋을 10K, 100K, 1M의 사이즈로 늘려가며 Low-resource 환경에서의 기계번역 시나리오 테스트 ▪ 그림에서 확인할 수 있듯 MASS는 모든 스케일에서 Low-resource MT의 baseline 성능을 능가했으며, 특히 이러한 성능의 개선은 데이터셋의 사이즈가 작을수록 더 두드러지게 나타남 ( see result of10K )
  • 16. Experiment: Abstractive Summarization ▪ Pre-trained BERT를 인코더로 Pre-trained Language Model을 디코더로 사용한 BERT+LM 모델과 DAE(Denoising Auto-Encoder), MASS의 Abstractive Summarization 성능을 Gigaword Corpus에 대해 비교 ▪ 표에서 확인할 수 있듯, MASS는 BERT+LM과 DAE 두 모델의 Abstractive Summarization 성능을 모두 능가
  • 17. Experiment: Conversational Response Generation ▪ Abstractive Summarization 성능 비교에 사용되었던 BERT+LM 모델과 Baseline, 그리고 MASS의 Conversational Response Generation 성능을 Cornell Movie Dialog Corpus에 대해 비교 ▪ 마찬가지로 MASS가 BERT+LM 모델과 Baseline 보다 낮은 Perplexity (PPL)를 기록하며 좋은 성능을 보여줌
  • 18. Conclusion and Future work ▪ MASS는 Sequence to Sequence 기반의 다양한 Language generation Task에 있어 좋은 성능을 기록 ▪ Language generation에서 좋은 성능을 기록한 MASS가 BERT와 XLNet이 뛰어난 결과를 기록한 Natural Language Understanding Task에서도 좋은 성능을 보일 것인지 차후 실험해볼 예정 ▪ 또한 MASS 모델이 Image와 Video와 같은 NLP와 다른 도메인에서도 Sequence to Sequence 기반의 생성 Task를 수행해낼 수 있을지에 대한 추가 실험 역시 이루어질 것
  • 19. <EOP>