I will introduce a paper about Joint Many-Task Model in 5 NLP tasks accepted EMNLP 2017
This slide were presented at Deep Learning Study group in DAVIAN LAB.
Paper link: https://arxiv.org/abs/1611.01587
1. A Joint Many-Task Model:
Growing a Neural Network for Multiple
NLP Tasks
Kazuma Hashimoto, Caiming Xiong, Yoshimasa Tsuruoka, and Richart Socher
The University of Tokyo
EMNLP 2017 Accepted
Presented by Choi Seong Jae
3. Motivation
• 기존의 접근법은 Single Task를 다루는 것에 치중 돼 있음
• Multi-task를 다루는 것에서도, 연관성이 큰 task들을 학습하는 형태였음(POS tagging, Chunking
ETC.)
• Zhang and Weiss (2016) 논문에서 POS tagging과 dependency parsing을 jointly learning을 할 경
우 효과적이란 것을 보임
4. Details: Word Representations
• Word embeddings
• Skip-gram
• Character embeddings
• N-gram embeddings
Example:
(n = 1, 2, 3) of the word “Cat”
{C, a, t, #B#C, Ca, at, t#E#, #B#Ca, Cat, at#E#}
Average of the unique character n–gram embeddings
6. Details: Word-Level Task: Chunking
• Word-level에서 chunking-tag(B-NP, I-VP, etc.)등을 분류하는 Task
• Bi-directional LSTM
Input
Number of POS tags
Corresponding label embedding
7. Details: Syntactic Task: Dependency Parsing
• 문장 내의 word pair들 사이의 syntactic relation을 찾아내는 Task
• Bi-directional LSTM
𝑤𝑡의 parent node를 예측하기 위한 matching function
8. Details: Semantic Task: Semantic relatedness
• 두 문장 사이의 semantic relationship를 찾아내는 Task
• Output으로 두 문장 사이의 real-valued relatedness score가 됨
Sentence representations The absolute values of the element-wise subtraction
Element-wise multiplicationThe feature vector representation
Max pooling strategy
9. Details: Semantic Task: Textual entailment
• Sentence s와 Hypothesis h가 있으면, s가 주어졌을 때 h를 추론할 수 있
는지를 확인하는 Task
• Entailment, Contradiction and Neutral 3개의 class로 분류
The absolute values of the element-wise subtraction
Element-wise multiplicationThe feature vector representation
어느 문장이 hypothesis인지 알기 위해
10. Training: POS tagging, Chunking, Dependency Parsing Layer
L2-norm regularization
Successive regularization Model이 이전 Task에서 학습한 것을 잊지 않도록
12. Experimental Settings
• POS tagging, Chunking, Dependency Parsing
• Wall Street Journal(WSJ) portion of Penn Treebank dataset 사용
• Semantic relatedness, Textual entailment
• SICK dataset(Marelli et al., 2014) 를 사용
17. Conclusion
• Growing depth를 통해 multiple NLP task를 다루는 것을 하였음
• Depth를 증가 시킬 때, linguistic hierarchies 고려하고 shortcut
connection 적용함으로써 성공적으로 학습 할 수 있었음
• 논문에 나온 5개의 task외에 entity detection, relation extraction 등을
사용해 좀 더 발전할 여지가 충분함
Notes de l'éditeur
기존의 방법론들과는 달리, linguistic hierarchical 하게 POS tagging, chunking, dependency parsing, semantic relatedness, and textual entailment 로 구성하여 end-to-end 형식으로 점점 복잡한 Model들을 만들어 가는 방식입니다.
이렇게 hierarchical 한 형태로 만들어 low level layer들이 high level layer들의 성능을 높일 수 있다는 것을 보여주는 논문입니다.
연관된 TASK 끼리 합쳐서 학습할 경우, low-level과 high-level task 전부 성능이 향상 된 것을 볼 수 있다.
POS tagging의 경우 state-of-the-art 한 방법과 비슷한 성능을 내었다. Best resul는 Ling et al 방법론인데, character-based LSTM을 사용한 방법이다.
Chunking은 stat—of-the-art 한 성능을 냈다. Sogaard and goldberg의 방법론은 pos tagging과 chunking을 different layer에서 jointly learn을 했는데, chunking에서만 성능 향상을 보였다.
Dependency parsing 에서 beam search를 사용한 andor et al. 방법보다 뛰어난 성능을 냈다. Best result는 sophisticated attention mechanism(biaffine attention)을 사용한 방법이다.
Semantic relatedness 는 state-of-the-art 한 성능이다. 기존 방법은 syntactic trees을 사용하거나 tree와 attention을 사용한 방법이다.
Textual entailment 는 state-of-the-art 한 성능. 기존 방법은 dataset에 맞춘 preprocessing과 feature와 attention mechanism을 이용한 방법이다.
Shortcut connection 은 word representations 을 모든 bi-directional LSTM 에 넣는 것을 의미함