4. Abstract
▪ “Pre-training”은 2018년 이후 자연어 처리 분야에서 가장 활발한 연구가 이루어지는 주제 중 하나
▪ 그 중, Google이 내놓은 BERT와 XLNet은 특히 자연어 이해 (NLU) Task에서 엄청난 성공을 거둔 모델들
▪ e.g.) Sentiment Classification, Natural Language Inference, Machine Reading Comprehension …
▪ 그러나 NLP에는 NLU Task 외에도 Sequence-to-Sequence를 기반으로 하는 다양한 자연어 생성 Task들이 있음
▪ e.g) Machine Translation, Abstract Text Summarization, Conversational Response Generation,
Question Answering, Text Style Transfer …
▪ 이러한 자연어 생성 Task를 위해서는 “Encoder-Attention-Decoder” 구조의 모델들이 지배적으로 사용되고 있음
5. ▪ 인코더는 Source sequence “X”를 Input으로 받은 후, 이를 hidden representations sequence로 변형
▪ 디코더는 인코더로부터 hidden representations sequence를 전달 받아 Target Sequence “Y”를 생성하며,
이 때 Attention mechanism이 학습한 Input에 대한 정보를 함께 참조
Abstract: What is Encoder-attention-Decoder Framework?
6. ▪ BERT(좌측)와 XLNet은 Language Understanding을 위해 인코더를 Pre-train하는 반면,
GPT(우측)는 Language Modeling을 위해 디코더를 Pre-train 시키는 구조를 지니고 있음
▪ 즉, 이전 모델들의 환경에서는 인코더, Attention 메커니즘 그리고 디코더가 함께 훈련될 수 없음
▪ 주지하다시피 Attention 메커니즘은 Language generation에서 매우 중요한 요소이기 때문에 이를 따로 학습시키지 않는
BERT나 XLNet, 그리고 GPT는 Language generation Task에 있어 최적의 성능을 발휘할 수가 없음
Abstract: Previous works(BERT, XLNet and GPT)
7. A new pre-training method
▪ Sequence to Sequence 기반의 Language Generation 문제 해결을 목표로 새로운 Pre-training 기법을 고안 !
▪ 우리가 제시하는 새로운 모델 MASS는 MAsked Sequence to Sequence Pre-training의 약자로,
: Input에서 k 개의 토큰 조각을 임의로 지정해 마스킹 한 후, 마스킹 된 해당 조각들을
Encoder-attention-Decoder Framework를 거쳐 예측하도록 훈련시키는 Pre-training 기법
▪ e.g.) 인코더는 3, 4, 5, 6번째 토큰이 마스킹 된 Input sequence의 hidden representations을 생성하고,
디코더는 인코더 측에서 마스킹 된 토큰들의 예측을 수행 (이때, 인코더에서 마스킹 되지 않았던 다른 토큰들이 마스킹 됨)
8. A new pre-training method: Three advantages of MASS
1. 인코더 측에서 마스킹 되지 않은 토큰들이 디코더 측에서 마스킹 됨에 따라, 디코더는 인코더가 제공한
hidden representation과 Attention 정보만을 참고해 마스킹 된 토큰들을 예측해야 하게 되고
이는 Encoder-attention-Decoder가 함께 Pre-train 될 수 있는 환경을 제공하게 됨
2. 인코더는 디코더에 보다 유용한 정보를 제공하기 위해 인코더 측에서 마스킹되지 않은 토큰들의 정보를
잘 추출할 수 있도록 학습하고, 이를 통해 Language Understanding 능력이 개선되게 됨
3. 디코더는 인코더 측에서 마스킹 된 토큰들에 대한 예측을 “연속적으로” 수행해야 하기 때문에
Language Modeling 능력을 학습하게 됨
9. General Pre-training Framework
▪ 모델 MASS에는 아주 중요한 하이퍼 파라미터 “k”가 있는데, 이는 인코더에서 “마스킹되는 토큰 개수”를 의미
▪ 해당 하이퍼 파라미터 k를 조정함에 따라 MASS는 BERT의 Masked LM과 GPT의 Standard LM을 모두 구현할 수 있음
▪ [Masked LM]: k=1일 때 인코더 측에서는 하나의 토큰이 마스킹되고, 디코더는 마스킹 된 하나의 토큰을 예측
▪ 즉, 별다른 Input Information 없이 하나의 마스킹 토큰을 예측하는 해당 디코더는 BERT의 Masked LM과 같아짐
10. General Pre-training Framework
▪ [Standard LM]: 하이퍼 파라미터 k가 Input 문장의 전체 길이인 m과 같을 때 인코더 측의 모든 토큰들이 마스킹 됨
▪ 디코더는 인코더로부터 어떠한 정보도 부여 받지 않은 채 모든 토큰을 예측해야 하므로, GPT의 Standard LM과 같아짐
11. General Pre-training Framework: The probability formulation
▪ 앞서 언급한 하이퍼 파라미터 k의 변화에 따른 MASS의 확률 수식은 위의 표와 같음
▪ m: Input sequence의 전체 길이 | u: 마스킹 된 fragment의 시작점 | v: 마스킹 된 fragment의 끝점
X_u:v: u부터 v까지의 fragment | X_\u:v: u부터 v까지 마스킹 된 Input sequence
▪ k=1이면 BERT의 masked LM과 확률 수식이 같아지고, k=m이면 GPT의 standard LM과 확률 수식이 같아짐
12. General Pre-training Framework: The probability formulation
▪ 위 그림들은 하이퍼 파라미터 k를 다르게 설정해가며, MASS 성능에 대한 다양한 실험을 수행한 결과
▪ 경험적 실험을 통해 k가 “문장의 절반 정도”의 크기에 해당할 때, downstream task에서 가장 좋은 성능을 보임을 알게 됨
▪ 문장 내 절반의 토큰을 마스킹하는 것이 인코더와 디코더의 Pre-training에 있어 “적절한 균형”을 제공해주기 때문
▪ 그러나 k가 1 (like. BERT) 혹은 m (like. GPT) 이었을 때는 downstream task에서 좋은 성능이 나오지 않았는데,
이는 MASS가 Sequence to Sequence 기반의 Language Generation Task에 이점을 지니고 있음을 반증 !
13. Experiment on language generation tasks: Pre-training
▪ 기본적으로 MASS는 Pre-training을 위해 monolingual 데이터를 필요로 함 ( e.g. Wikipedia data )
▪ 그러나 기계번역과 같은 Cross-lingual Task와 텍스트 요약과 같은 Monolingual Task를 모두 수행할 수 있음
▪ 영어-불어 번역과 같은 Cross-lingual Task의 수행을 위해서는 Pre-training으로 하나의 MASS 모델에
‘English-English’와 ‘French-French’ 데이터를 모두 학습시키는 방법을 사용
▪ 이때, 두 언어를 구분 짓기 위해 “Language embedding” 이라는 정보를 추가적으로 더해 줌
▪ Pre-training 이후에는 MASS의 성능을 입증하기 위해 [ Unsupervised Machine Translation, Low-resource
Machine Translation, Abstractive Summarization, Conversational Response Generation ]과 같은
Language Generation downstream task들에 대해 Fine-tuning을 수행
14. Experiment: Unsupervised Machine Translation
▪ 첫 번째로 Unsupervised Machine Translation Task에 있어 이전 모델들, 특히 최근까지 SOTA였던
Facebook의 XLM(Cross-lingual Language Model) 모델과 MASS의 성능 비교를 수행하였음
▪ Facebook의 XLM은 인코더와 디코더를 각각 BERT의 Masked LM과 standard LM으로 Pre-train 시킨 모델
▪ MASS는 6개의 기계번역 Task에 있어 XLM을 능가하는 성능을 보이며 SOTA를 기록
15. Experiment: Low-resource Machine Translation
▪ Low-resource Machine Translation: bilingual 트레이닝 데이터셋이 부족한 환경에서의 기계번역
▪ [WMT14 English-French], [WMT16 English-German, English-Romanian] 데이터셋을
10K, 100K, 1M의 사이즈로 늘려가며 Low-resource 환경에서의 기계번역 시나리오 테스트
▪ 그림에서 확인할 수 있듯 MASS는 모든 스케일에서 Low-resource MT의 baseline 성능을 능가했으며,
특히 이러한 성능의 개선은 데이터셋의 사이즈가 작을수록 더 두드러지게 나타남 ( see result of10K )
16. Experiment: Abstractive Summarization
▪ Pre-trained BERT를 인코더로 Pre-trained Language Model을 디코더로 사용한 BERT+LM 모델과
DAE(Denoising Auto-Encoder), MASS의 Abstractive Summarization 성능을 Gigaword Corpus에 대해 비교
▪ 표에서 확인할 수 있듯, MASS는 BERT+LM과 DAE 두 모델의 Abstractive Summarization 성능을 모두 능가
17. Experiment: Conversational Response Generation
▪ Abstractive Summarization 성능 비교에 사용되었던 BERT+LM 모델과 Baseline, 그리고 MASS의
Conversational Response Generation 성능을 Cornell Movie Dialog Corpus에 대해 비교
▪ 마찬가지로 MASS가 BERT+LM 모델과 Baseline 보다 낮은 Perplexity (PPL)를 기록하며 좋은 성능을 보여줌
18. Conclusion and Future work
▪ MASS는 Sequence to Sequence 기반의 다양한 Language generation Task에 있어 좋은 성능을 기록
▪ Language generation에서 좋은 성능을 기록한 MASS가 BERT와 XLNet이 뛰어난 결과를 기록한
Natural Language Understanding Task에서도 좋은 성능을 보일 것인지 차후 실험해볼 예정
▪ 또한 MASS 모델이 Image와 Video와 같은 NLP와 다른 도메인에서도 Sequence to Sequence 기반의
생성 Task를 수행해낼 수 있을지에 대한 추가 실험 역시 이루어질 것