SlideShare une entreprise Scribd logo
1  sur  25
/25
Learning to Compose Neural
Networks for Question
Answering
Jacob Andreas et al.
NAACL HLT 2016(Best Paper)
박상현(ESCA Lab)
1
/25
Abstract (1/2)
 Dynamic Neural Module Network
 이미지와 구조적 지식 베이스 모두에 적용 가능한, 동적으로 조립되는 뉴
럴 네트워크 QA 모델.
2
/25
Abstract (2/2)
 질문 문장을 구문 분석하여 모듈의 컬렉션으로부터 맞춤형 뉴럴 네트워크를 동적으
로 구축.
 이 네트워크를 이미지 또는 지식 베이스에 적용하여 답변을 생성함.
 각 모듈의 매개변수와 Network Layout 매개변수는 강화학습을 통해 공동으로 학습
됨.
질문 파싱
모듈로부터
뉴럴 네트워크
후보 생성
뉴럴 네트워크
선택
답변 생성
Lookup Find Relate Describe ExistsAnd Images KB
3
/25
1. Introduction (1/3)
 이 논문은 다양한 World representation에 대한 QA 작업을 수행하
는 Compositional, Attentional 모델을 제시함.
 논문의 모델은 공동으로 학습되는 두 가지 컴포넌트로 구성됨.
1) Neural Module Collection 2) Layout Predictor
Image, Knowledgebase
4
/25
1. Introduction (2/3)
 VQA를 위한 모듈 기반의 뉴럴 네트워크는 이미 이전 논문(Andreas
et al., 2016)에서 제시됨.
 이전 논문 대비 본 논문의 개선점은 다음 두가지임.
 1) 학습이 가능한 뉴럴 네트워크 Layout 예측기.
 2) 이미지에서만 사용이 가능했던 Visual Primitive를 Knowledge base에 대
해서도 추론이 가능하도록 확장.
5
/25
1. Introduction (3/3)
 이 모델의 학습데이터는 다음 세가지로 구성
됨.
 world
 question
 answer
 Unsupervised 학습을 수행.
 이 모델은 자연 이미지(VQA)와 US 지리 정보(GeoQA)
에 대한 QA 작업에서 state of the art 성능을 성취함.
6
/25
2. Deep networks as functional programs
(1/4)
 저자의 이전 논문에서 VQA 작업을 Modular Sub Problem으로 분해하는
Heuristic한 방법을 제시함.
① 질문을 Stanford Parser로 파싱하여 universal dependency representation(tree) 취득
② 그 다음, wh-단어 또는 연결동사에 연결된 디펜던시의 집합을 필터함
 ex) what is standing in the field?  what(stand)
what color is the cat?  color(cat)
is there a circle next to a square?  is(circle, next-to(square))
③ 모든 Leaf는 find 모듈, 모든 내부 노드는 transform 또는 combine 모듈, 그리고 루트 노
드는 describe 또는 measure 모듈로 구성
ex) what color is the cat?  describe[color](find[cat])
where is the truck?  describe[where](find[truck])
7
본 논문에서는 이 과정을 학습을 통해 결정
/25
2. Deep networks as functional programs
(2/4)
Attention
Labeling
“What color is the bird?”
“Where is the bird?”
(find)
“What color is that part
of the image?”
(describe)
8
/25
2. Deep networks as functional programs
(3/4)
Attention
Labeling
“Are there any state?”
“where are the states?”
(find)
“does the state exist?”
(Exists)
9
/25
2. Deep networks as functional programs
(4/4)
 2 contributions of this paper.
1) Knowledge base에 대해서도 attention 메커니즘을 적용할 수 있도록 확
장하고 일반화함.
2) 모듈을 구조적으로 조립하는 것을 학습하는 모델
 Dynamic Neural Module Network
 질문 문장을 구문 분석하여 구성 가능한 모듈의 컬렉션으로부터 뉴럴 네
트워크를 동적으로 구축하는 모델.
10
/25
3. Related work
 Database QnA
 Wong & Mooney, 2007; Kwiatkowski et al., 2010; Liang et al., 2011; Andreas et al., 2013
 Neural models for QnA
 Iyyer et al., 2014; Bordes et al., 2014; Yang et al., 2015; Malinowski et al., 2015
 Visual QnA
 Simonyan and Zisserman, 2014; Xu et al., 2015; Yang et al., 2015
 Formal logic and representation learning
 Beltagy et al., 2013; Lewis & Steedman, 2013; Malinowski & Fritz, 2014
 Fixed tree structure using universal parser
 Bottou et al., 1997; Socher et al., 2011; Bottou, 2014
11
/25
4. Model
 The goal
 Layout model
 Predict Layout from a Question : 𝑝(𝑧|𝑥; 𝜃𝑙)
 Execution model
 Generate answer from W/R : 𝑝 𝑧 (𝑦|𝑤; 𝜃𝑒)
Questions
World Representations
(Images, Knowledge bases)
Answers
map
12
/25
4.1. Evaluating Modules
 Execution Model :
𝑝 𝑧 𝑦 𝑤 = ([𝑧] 𝑤) 𝑦
 z의 substructure를 명시적으로 언급할 때, ([𝑧] 𝑤) 𝑦를 다음과 같이 나타낼 수
있음.
([𝑧] 𝑤) 𝑦= [𝑚(ℎ1, ℎ2)]
 layout z의 집합은 각 module의 다음 두 가지 Type Constraint에 의해 제한됨.
 Attention : A distribution over pixels or entities
 Labels : a distribution over answers.
[𝑧] 𝑤: 입력 W/R w에 대한 레이아웃 z의 출력
m은 root 모듈, h1, h2는 submodule의
output(attention)
13
/25
4.1. Evaluating Modules
 다른 네트워크의 모듈 인스턴스끼리 파라미터를 공유(Parameter Tying)할 수 있음.
 각 모듈은 Parameter Arguments 또는 Ordinary Inputs 을 가짐.
 Parameter Arguments
 layout으로부터 제공 받으며, 어휘 요소에 대한 모듈의 기능을 특정할 때 사용됨.
 ex) what color is the cat?  describe[color](find[cat])
 Ordinary Inputs :
 하위 네트워크의 계산 결과
 ex) what color is the cat?  describe[color](find[cat])
14
/25
4.1. Evaluating Modules
• 𝑤1
, 𝑤2
,… : world representation
• W : world representation expressed as a matrix
• σ : ReLU
• h : attention
• 𝑤(ℎ) = 𝑘 ℎ 𝑘 𝑤 𝑘
(ℎ 𝑘는 h의 k번째 요소)
• A, a, B, b, … : Global weights
• 𝑢 𝑖
, 𝑣 𝑖
: Weights associated
with the parameter argument i
• i : Parameter Argument
𝜃𝑒
ex) describe[color](find[cat])
15
/25
4.1. Evaluating Modules
 각 네트워크 레이아웃의 최상위 모듈이 describe 또는 exists 모듈
이라고 가정하면, 조립된 전체 네트워크는 출력 레이블 상의 분포
에 상응함.
 학습을 위해 관찰된 z에 대해 (𝑤,𝑦,𝑧) log 𝑝 𝑧
(𝑦|𝑤; 𝜃𝑒 )를 최대화 시
킴.
16
/25
4.2. Assembling networks
 Layout 선정 과정
1) layout 후보 집합 생성.
2) 각 후보 Scoring 하여 Top 1 선택.
17
/25
4.2. Assembling networks
1) layout 후보 집합 생성
① 입력 문장을 dependency tree로 표현
② wh-word 또는 연결동사에 붙어있는
모든 명사, 동사, 전치사구를 수집
③ 각 단어, 구를 layout fragment에 연관시킴.
- 일반 명사(city) : find
- 고유 명사(Georgia) : lookup
- 전치사구(in) : relate
④ layout fragment 집합의 하위 집합을 구성.
- and 모듈로 모든 하위 fragment를 결합
- measure 또는 describe 모듈을 최상위에 얹음.
논문의 오타로 판단됨. measure는 이전 논문에서 있었지만
본 논문에는 없어짐. measure 대신 exists가 와야 함. 18
/25
4.2. Assembling networks
2) 각 후보의 점수를 측정하여 최종 선택.
① 질문 문장의 LSTM representation과 query(layout)의 feature based representation를 생성.
② ①에서 얻은 LSTM representation과 feature representation을 이용하여 Score 𝑠 𝑧𝑖 𝑥 계산
𝑠 𝑧𝑖 𝑥 = 𝑎 𝑇
𝜎(𝐵ℎ 𝑞 𝑥 + 𝐶𝑓 𝑧𝑖 + 𝑑)
③ 이 스코어로부터 확률분포를 얻기 위해 Softmax로 정규화 수행
𝑝 𝑧𝑖 𝑥; 𝜃𝑙 =
𝑒 𝑠(𝑧 𝑖|𝑥)
𝑗=1
𝑛
𝑒
𝑠(𝑧 𝑗|𝑥)
𝜃𝑙 = {𝑎, 𝐵, 𝐶, 𝑑} 는 Layout Parameter
ℎ 𝑞 𝑥 : x는 질문문장 𝑓 𝑧𝑖 : i번째 후보 네트워크(z)의 임베딩
19
/25
4.2. Assembling networks
 저자는 다음과 같은 이유로 강화학습을 이용.
 Key Constraint :
 계산 비용이 비싼 execution model 𝑝 𝑧 𝑦 𝑤; 𝜃𝑒 의 평가량을 최소화 해야 하는 반면,
layout model의 평가 (모든 z에 대한 𝑝 𝑧 𝑥; 𝜃𝑙 계산;scoring도 여기에서 이루어짐) 는
비용이 저렴함.
 이와는 반대로, semantic parsing에서는 쿼리 Execution model은 계산 비용
이 저렴하고, 점수를 철저히 매기기에는 구문 분석 결과 집합이 너무 큼.
 오히려 이 모델의 제약 사항은 강화 학습에서 에이전트가 처하는 시나리
오와 유사함. (action을 scoring하는 비용은 저렴하지만 action을 실행하고
보상을 취득하는 비용은 비쌈)
20
/25
4.2. Assembling networks
 저자들은 자신들의 모델을 stochastic policy로 표현하여 학습 과정을 모
델링함.
① log 𝑝(𝑧|𝑥; 𝜃𝑙)로부터 z를 샘플링
② 샘플링한 z를 knowledge source에 적용하고 답변 p 𝑦 𝑧, 𝑤; 𝜃𝑒 상의 분포를 얻음.
③ 네트워크 z가 선택되면, log 𝑝 (𝑦|𝑧, 𝑤; 𝜃𝑒)를 최대화함으로써 execution model을
학습시킬 수 있음. 확률 분포에 의해 샘플링하는 과정은 미분이 불가능하므로
Policy Gradient Method 를 이용하여 𝑝(𝑧|𝑥; 𝜃𝑙) 를 최적화함.
 𝛻𝐽 𝜃𝑙 = 𝐸[𝛻 log 𝑝 (𝑧|𝑥; 𝜃𝑙) ∙ 𝑟]
𝛻𝐽 𝜃𝑙 = 𝐸[𝛻 log 𝑝 (𝑧|𝑥; 𝜃𝑙) ∙ log 𝑝 (𝑦|𝑧, 𝑤; 𝜃𝑒)]
r : 보상
execution modellayout model
21
/25
5. Experiment(VQA)
22
/25
5. Experiment(GeoQA)
23
/25
6. Conclusion
 Dynamic Neural Module Network :
 비구조적(예:이미지) 또는 구조적(예:XML 데이터)에 대해 Q&A 작업 가능
 Question, Answer, World Representation만으로 모듈을 조립하는 과정을 학
습.
24
/25
Q&A
25

Contenu connexe

Tendances

keras 빨리 훑어보기(intro)
keras 빨리 훑어보기(intro)keras 빨리 훑어보기(intro)
keras 빨리 훑어보기(intro)beom kyun choi
 
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...Mad Scientists
 
머신 러닝 입문 #1-머신러닝 소개와 kNN 소개
머신 러닝 입문 #1-머신러닝 소개와 kNN 소개머신 러닝 입문 #1-머신러닝 소개와 kNN 소개
머신 러닝 입문 #1-머신러닝 소개와 kNN 소개Terry Cho
 
PR-339: Maintaining discrimination and fairness in class incremental learning
PR-339: Maintaining discrimination and fairness in class incremental learningPR-339: Maintaining discrimination and fairness in class incremental learning
PR-339: Maintaining discrimination and fairness in class incremental learningSunghoon Joo
 
Wiki machine learning_and_neuralnet_190920h
Wiki machine learning_and_neuralnet_190920hWiki machine learning_and_neuralnet_190920h
Wiki machine learning_and_neuralnet_190920hSeokhyun Yoon
 
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...홍배 김
 
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...Sunghoon Joo
 
Anomaly Detection with GANs
Anomaly Detection with GANsAnomaly Detection with GANs
Anomaly Detection with GANs홍배 김
 
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator홍배 김
 
Graph convolutional matrix completion
Graph convolutional  matrix completionGraph convolutional  matrix completion
Graph convolutional matrix completionpko89403
 
Deep neural networks cnn rnn_ae_some practical techniques
Deep neural networks cnn rnn_ae_some practical techniquesDeep neural networks cnn rnn_ae_some practical techniques
Deep neural networks cnn rnn_ae_some practical techniquesKang Pilsung
 
Lecture 3: Unsupervised Learning
Lecture 3: Unsupervised LearningLecture 3: Unsupervised Learning
Lecture 3: Unsupervised LearningSang Jun Lee
 
알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder홍배 김
 
InfoGAN Paper Review
InfoGAN Paper ReviewInfoGAN Paper Review
InfoGAN Paper Review태엽 김
 
neural network 기초
neural network 기초neural network 기초
neural network 기초Dea-hwan Ki
 
[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement LearningKiho Suh
 
Attention is all you need
Attention is all you needAttention is all you need
Attention is all you needHoon Heo
 
Chapter 6 Deep feedforward networks - 2
Chapter 6 Deep feedforward networks - 2Chapter 6 Deep feedforward networks - 2
Chapter 6 Deep feedforward networks - 2KyeongUkJang
 

Tendances (20)

keras 빨리 훑어보기(intro)
keras 빨리 훑어보기(intro)keras 빨리 훑어보기(intro)
keras 빨리 훑어보기(intro)
 
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...
Face Feature Recognition System with Deep Belief Networks, for Korean/KIISE T...
 
Detecting fake jpeg images
Detecting fake jpeg imagesDetecting fake jpeg images
Detecting fake jpeg images
 
머신 러닝 입문 #1-머신러닝 소개와 kNN 소개
머신 러닝 입문 #1-머신러닝 소개와 kNN 소개머신 러닝 입문 #1-머신러닝 소개와 kNN 소개
머신 러닝 입문 #1-머신러닝 소개와 kNN 소개
 
PR-339: Maintaining discrimination and fairness in class incremental learning
PR-339: Maintaining discrimination and fairness in class incremental learningPR-339: Maintaining discrimination and fairness in class incremental learning
PR-339: Maintaining discrimination and fairness in class incremental learning
 
Wiki machine learning_and_neuralnet_190920h
Wiki machine learning_and_neuralnet_190920hWiki machine learning_and_neuralnet_190920h
Wiki machine learning_and_neuralnet_190920h
 
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
 
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
PR-313 Training BatchNorm and Only BatchNorm: On the Expressive Power of Rand...
 
Anomaly Detection with GANs
Anomaly Detection with GANsAnomaly Detection with GANs
Anomaly Detection with GANs
 
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator
 
Graph convolutional matrix completion
Graph convolutional  matrix completionGraph convolutional  matrix completion
Graph convolutional matrix completion
 
Deep neural networks cnn rnn_ae_some practical techniques
Deep neural networks cnn rnn_ae_some practical techniquesDeep neural networks cnn rnn_ae_some practical techniques
Deep neural networks cnn rnn_ae_some practical techniques
 
CNN
CNNCNN
CNN
 
Lecture 3: Unsupervised Learning
Lecture 3: Unsupervised LearningLecture 3: Unsupervised Learning
Lecture 3: Unsupervised Learning
 
알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder
 
InfoGAN Paper Review
InfoGAN Paper ReviewInfoGAN Paper Review
InfoGAN Paper Review
 
neural network 기초
neural network 기초neural network 기초
neural network 기초
 
[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning[한국어] Neural Architecture Search with Reinforcement Learning
[한국어] Neural Architecture Search with Reinforcement Learning
 
Attention is all you need
Attention is all you needAttention is all you need
Attention is all you need
 
Chapter 6 Deep feedforward networks - 2
Chapter 6 Deep feedforward networks - 2Chapter 6 Deep feedforward networks - 2
Chapter 6 Deep feedforward networks - 2
 

En vedette

Deep Learning for Natural Language Processing
Deep Learning for Natural Language ProcessingDeep Learning for Natural Language Processing
Deep Learning for Natural Language ProcessingJonathan Mugan
 
Artificial Neural Networks
Artificial Neural NetworksArtificial Neural Networks
Artificial Neural Networksguestac67362
 
MTech - AI_NeuralNetworks_Assignment
MTech - AI_NeuralNetworks_AssignmentMTech - AI_NeuralNetworks_Assignment
MTech - AI_NeuralNetworks_AssignmentVijayananda Mohire
 
NLP_Project_Paper_up276_vec241
NLP_Project_Paper_up276_vec241NLP_Project_Paper_up276_vec241
NLP_Project_Paper_up276_vec241Urjit Patel
 
Basic Electrical Engineering
Basic Electrical EngineeringBasic Electrical Engineering
Basic Electrical EngineeringMathankumar S
 
Neural network for machine learning
Neural network for machine learningNeural network for machine learning
Neural network for machine learningUjjawal
 
RAIN WATER HARVESTING
RAIN WATER HARVESTING RAIN WATER HARVESTING
RAIN WATER HARVESTING Mathankumar S
 
Digital image processing - Image Enhancement (MATERIAL)
Digital image processing  - Image Enhancement (MATERIAL)Digital image processing  - Image Enhancement (MATERIAL)
Digital image processing - Image Enhancement (MATERIAL)Mathankumar S
 
Calculating the hamming code
Calculating the hamming codeCalculating the hamming code
Calculating the hamming codeUmesh Gupta
 
Recurrent Neural Network tutorial (2nd)
Recurrent Neural Network tutorial (2nd) Recurrent Neural Network tutorial (2nd)
Recurrent Neural Network tutorial (2nd) 신동 강
 
What Deep Learning Means for Artificial Intelligence
What Deep Learning Means for Artificial IntelligenceWhat Deep Learning Means for Artificial Intelligence
What Deep Learning Means for Artificial IntelligenceJonathan Mugan
 
FISH SEED PRODUCTION & CULTIVABLE FISH SPECIES WITH FISH CUM DUCK FORMING
FISH SEED PRODUCTION & CULTIVABLE FISH SPECIES WITH FISH CUM DUCK FORMINGFISH SEED PRODUCTION & CULTIVABLE FISH SPECIES WITH FISH CUM DUCK FORMING
FISH SEED PRODUCTION & CULTIVABLE FISH SPECIES WITH FISH CUM DUCK FORMINGMathankumar S
 
Backpropagation
BackpropagationBackpropagation
Backpropagationariffast
 
Biological control systems - Time Response Analysis - S.Mathankumar-VMKVEC
Biological control systems - Time Response Analysis - S.Mathankumar-VMKVECBiological control systems - Time Response Analysis - S.Mathankumar-VMKVEC
Biological control systems - Time Response Analysis - S.Mathankumar-VMKVECMathankumar S
 
Back propagation network
Back propagation networkBack propagation network
Back propagation networkHIRA Zaidi
 

En vedette (20)

Deep Learning for Natural Language Processing
Deep Learning for Natural Language ProcessingDeep Learning for Natural Language Processing
Deep Learning for Natural Language Processing
 
Max net
Max netMax net
Max net
 
Artificial Neural Networks
Artificial Neural NetworksArtificial Neural Networks
Artificial Neural Networks
 
MTech - AI_NeuralNetworks_Assignment
MTech - AI_NeuralNetworks_AssignmentMTech - AI_NeuralNetworks_Assignment
MTech - AI_NeuralNetworks_Assignment
 
Pattern recognition
Pattern recognitionPattern recognition
Pattern recognition
 
Hamming
HammingHamming
Hamming
 
Neural network
Neural networkNeural network
Neural network
 
NLP_Project_Paper_up276_vec241
NLP_Project_Paper_up276_vec241NLP_Project_Paper_up276_vec241
NLP_Project_Paper_up276_vec241
 
Basic Electrical Engineering
Basic Electrical EngineeringBasic Electrical Engineering
Basic Electrical Engineering
 
Neural network for machine learning
Neural network for machine learningNeural network for machine learning
Neural network for machine learning
 
RAIN WATER HARVESTING
RAIN WATER HARVESTING RAIN WATER HARVESTING
RAIN WATER HARVESTING
 
Digital image processing - Image Enhancement (MATERIAL)
Digital image processing  - Image Enhancement (MATERIAL)Digital image processing  - Image Enhancement (MATERIAL)
Digital image processing - Image Enhancement (MATERIAL)
 
Calculating the hamming code
Calculating the hamming codeCalculating the hamming code
Calculating the hamming code
 
Recurrent Neural Network tutorial (2nd)
Recurrent Neural Network tutorial (2nd) Recurrent Neural Network tutorial (2nd)
Recurrent Neural Network tutorial (2nd)
 
What Deep Learning Means for Artificial Intelligence
What Deep Learning Means for Artificial IntelligenceWhat Deep Learning Means for Artificial Intelligence
What Deep Learning Means for Artificial Intelligence
 
FISH SEED PRODUCTION & CULTIVABLE FISH SPECIES WITH FISH CUM DUCK FORMING
FISH SEED PRODUCTION & CULTIVABLE FISH SPECIES WITH FISH CUM DUCK FORMINGFISH SEED PRODUCTION & CULTIVABLE FISH SPECIES WITH FISH CUM DUCK FORMING
FISH SEED PRODUCTION & CULTIVABLE FISH SPECIES WITH FISH CUM DUCK FORMING
 
Backpropagation
BackpropagationBackpropagation
Backpropagation
 
Biological control systems - Time Response Analysis - S.Mathankumar-VMKVEC
Biological control systems - Time Response Analysis - S.Mathankumar-VMKVECBiological control systems - Time Response Analysis - S.Mathankumar-VMKVEC
Biological control systems - Time Response Analysis - S.Mathankumar-VMKVEC
 
Back propagation network
Back propagation networkBack propagation network
Back propagation network
 
FISH FARMING
FISH FARMING FISH FARMING
FISH FARMING
 

Similaire à Paper Reading : Learning to compose neural networks for question answering

[Paper Review] Visualizing and understanding convolutional networks
[Paper Review] Visualizing and understanding convolutional networks[Paper Review] Visualizing and understanding convolutional networks
[Paper Review] Visualizing and understanding convolutional networksKorea, Sejong University.
 
Siamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explainedSiamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explainedtaeseon ryu
 
Introduction to Fork Join Framework_SYS4U I&C
Introduction to Fork Join Framework_SYS4U I&CIntroduction to Fork Join Framework_SYS4U I&C
Introduction to Fork Join Framework_SYS4U I&Csys4u
 
네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLDKim Junghoon
 
VLFeat SIFT MATLAB application 테크니컬 리포트
VLFeat SIFT MATLAB application 테크니컬 리포트VLFeat SIFT MATLAB application 테크니컬 리포트
VLFeat SIFT MATLAB application 테크니컬 리포트Hyunwoong_Jang
 
Introduction toDQN
Introduction toDQNIntroduction toDQN
Introduction toDQNCurt Park
 
MRC recent trend_ppt
MRC recent trend_pptMRC recent trend_ppt
MRC recent trend_pptseungwoo kim
 
Korean manual for nodexl fb, flickr, twitter, youtube, wiki
Korean manual for nodexl fb, flickr, twitter, youtube, wikiKorean manual for nodexl fb, flickr, twitter, youtube, wiki
Korean manual for nodexl fb, flickr, twitter, youtube, wikiHan Woo PARK
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)SK(주) C&C - 강병호
 
전달교육(분석설계모델링)
전달교육(분석설계모델링)전달교육(분석설계모델링)
전달교육(분석설계모델링)gimslide
 
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detectionSummary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection창기 문
 
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detectionSummary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection창기 문
 
11_빠른 개발 가능한 레벨 편집 시스템
11_빠른 개발 가능한 레벨 편집 시스템11_빠른 개발 가능한 레벨 편집 시스템
11_빠른 개발 가능한 레벨 편집 시스템noerror
 
부록2 node xl 메뉴얼(11aug2011)
부록2 node xl 메뉴얼(11aug2011)부록2 node xl 메뉴얼(11aug2011)
부록2 node xl 메뉴얼(11aug2011)Han Woo PARK
 
Ch.5 Deep Learning
Ch.5 Deep LearningCh.5 Deep Learning
Ch.5 Deep LearningPartPrime
 
001 k means clustering 알고리즘을 활용한 가정 전기 사용량 분석-ver0
001 k means clustering 알고리즘을 활용한 가정 전기 사용량 분석-ver0001 k means clustering 알고리즘을 활용한 가정 전기 사용량 분석-ver0
001 k means clustering 알고리즘을 활용한 가정 전기 사용량 분석-ver0Hyun Wong Choi
 

Similaire à Paper Reading : Learning to compose neural networks for question answering (20)

[Paper Review] Visualizing and understanding convolutional networks
[Paper Review] Visualizing and understanding convolutional networks[Paper Review] Visualizing and understanding convolutional networks
[Paper Review] Visualizing and understanding convolutional networks
 
Neural module Network
Neural module NetworkNeural module Network
Neural module Network
 
Siamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explainedSiamese neural networks for one shot image recognition paper explained
Siamese neural networks for one shot image recognition paper explained
 
Introduction to Fork Join Framework_SYS4U I&C
Introduction to Fork Join Framework_SYS4U I&CIntroduction to Fork Join Framework_SYS4U I&C
Introduction to Fork Join Framework_SYS4U I&C
 
PaLM Paper Review
PaLM Paper ReviewPaLM Paper Review
PaLM Paper Review
 
네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD네트워크 경량화 이모저모 @ 2020 DLD
네트워크 경량화 이모저모 @ 2020 DLD
 
VLFeat SIFT MATLAB application 테크니컬 리포트
VLFeat SIFT MATLAB application 테크니컬 리포트VLFeat SIFT MATLAB application 테크니컬 리포트
VLFeat SIFT MATLAB application 테크니컬 리포트
 
Introduction toDQN
Introduction toDQNIntroduction toDQN
Introduction toDQN
 
MRC recent trend_ppt
MRC recent trend_pptMRC recent trend_ppt
MRC recent trend_ppt
 
Korean manual for nodexl fb, flickr, twitter, youtube, wiki
Korean manual for nodexl fb, flickr, twitter, youtube, wikiKorean manual for nodexl fb, flickr, twitter, youtube, wiki
Korean manual for nodexl fb, flickr, twitter, youtube, wiki
 
메이크챗봇 자연어기초
메이크챗봇 자연어기초메이크챗봇 자연어기초
메이크챗봇 자연어기초
 
파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)파이썬으로 익히는 딥러닝 기본 (18년)
파이썬으로 익히는 딥러닝 기본 (18년)
 
전달교육(분석설계모델링)
전달교육(분석설계모델링)전달교육(분석설계모델링)
전달교육(분석설계모델링)
 
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detectionSummary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection
 
Summary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detectionSummary in recent advances in deep learning for object detection
Summary in recent advances in deep learning for object detection
 
11_빠른 개발 가능한 레벨 편집 시스템
11_빠른 개발 가능한 레벨 편집 시스템11_빠른 개발 가능한 레벨 편집 시스템
11_빠른 개발 가능한 레벨 편집 시스템
 
부록2 node xl 메뉴얼(11aug2011)
부록2 node xl 메뉴얼(11aug2011)부록2 node xl 메뉴얼(11aug2011)
부록2 node xl 메뉴얼(11aug2011)
 
Naive ML Overview
Naive ML OverviewNaive ML Overview
Naive ML Overview
 
Ch.5 Deep Learning
Ch.5 Deep LearningCh.5 Deep Learning
Ch.5 Deep Learning
 
001 k means clustering 알고리즘을 활용한 가정 전기 사용량 분석-ver0
001 k means clustering 알고리즘을 활용한 가정 전기 사용량 분석-ver0001 k means clustering 알고리즘을 활용한 가정 전기 사용량 분석-ver0
001 k means clustering 알고리즘을 활용한 가정 전기 사용량 분석-ver0
 

Dernier

Grid Layout (Kitworks Team Study 장현정 발표자료)
Grid Layout (Kitworks Team Study 장현정 발표자료)Grid Layout (Kitworks Team Study 장현정 발표자료)
Grid Layout (Kitworks Team Study 장현정 발표자료)Wonjun Hwang
 
[OpenLAB] AWS reInvent를 통해 바라본 글로벌 Cloud 기술동향.pdf
[OpenLAB] AWS reInvent를 통해 바라본 글로벌 Cloud 기술동향.pdf[OpenLAB] AWS reInvent를 통해 바라본 글로벌 Cloud 기술동향.pdf
[OpenLAB] AWS reInvent를 통해 바라본 글로벌 Cloud 기술동향.pdfssuserf8b8bd1
 
도심 하늘에서 시속 200km로 비행할 수 있는 미래 항공 모빌리티 'S-A2'
도심 하늘에서 시속 200km로 비행할 수 있는 미래 항공 모빌리티 'S-A2'도심 하늘에서 시속 200km로 비행할 수 있는 미래 항공 모빌리티 'S-A2'
도심 하늘에서 시속 200km로 비행할 수 있는 미래 항공 모빌리티 'S-A2'Hyundai Motor Group
 
클라우드 애플리케이션 보안 플랫폼 'Checkmarx One' 소개자료
클라우드 애플리케이션 보안 플랫폼 'Checkmarx One' 소개자료클라우드 애플리케이션 보안 플랫폼 'Checkmarx One' 소개자료
클라우드 애플리케이션 보안 플랫폼 'Checkmarx One' 소개자료Softwide Security
 
오픈소스 위험 관리 및 공급망 보안 솔루션 'Checkmarx SCA' 소개자료
오픈소스 위험 관리 및 공급망 보안 솔루션 'Checkmarx SCA' 소개자료오픈소스 위험 관리 및 공급망 보안 솔루션 'Checkmarx SCA' 소개자료
오픈소스 위험 관리 및 공급망 보안 솔루션 'Checkmarx SCA' 소개자료Softwide Security
 
파일 업로드(Kitworks Team Study 유현주 발표자료 240510)
파일 업로드(Kitworks Team Study 유현주 발표자료 240510)파일 업로드(Kitworks Team Study 유현주 발표자료 240510)
파일 업로드(Kitworks Team Study 유현주 발표자료 240510)Wonjun Hwang
 

Dernier (6)

Grid Layout (Kitworks Team Study 장현정 발표자료)
Grid Layout (Kitworks Team Study 장현정 발표자료)Grid Layout (Kitworks Team Study 장현정 발표자료)
Grid Layout (Kitworks Team Study 장현정 발표자료)
 
[OpenLAB] AWS reInvent를 통해 바라본 글로벌 Cloud 기술동향.pdf
[OpenLAB] AWS reInvent를 통해 바라본 글로벌 Cloud 기술동향.pdf[OpenLAB] AWS reInvent를 통해 바라본 글로벌 Cloud 기술동향.pdf
[OpenLAB] AWS reInvent를 통해 바라본 글로벌 Cloud 기술동향.pdf
 
도심 하늘에서 시속 200km로 비행할 수 있는 미래 항공 모빌리티 'S-A2'
도심 하늘에서 시속 200km로 비행할 수 있는 미래 항공 모빌리티 'S-A2'도심 하늘에서 시속 200km로 비행할 수 있는 미래 항공 모빌리티 'S-A2'
도심 하늘에서 시속 200km로 비행할 수 있는 미래 항공 모빌리티 'S-A2'
 
클라우드 애플리케이션 보안 플랫폼 'Checkmarx One' 소개자료
클라우드 애플리케이션 보안 플랫폼 'Checkmarx One' 소개자료클라우드 애플리케이션 보안 플랫폼 'Checkmarx One' 소개자료
클라우드 애플리케이션 보안 플랫폼 'Checkmarx One' 소개자료
 
오픈소스 위험 관리 및 공급망 보안 솔루션 'Checkmarx SCA' 소개자료
오픈소스 위험 관리 및 공급망 보안 솔루션 'Checkmarx SCA' 소개자료오픈소스 위험 관리 및 공급망 보안 솔루션 'Checkmarx SCA' 소개자료
오픈소스 위험 관리 및 공급망 보안 솔루션 'Checkmarx SCA' 소개자료
 
파일 업로드(Kitworks Team Study 유현주 발표자료 240510)
파일 업로드(Kitworks Team Study 유현주 발표자료 240510)파일 업로드(Kitworks Team Study 유현주 발표자료 240510)
파일 업로드(Kitworks Team Study 유현주 발표자료 240510)
 

Paper Reading : Learning to compose neural networks for question answering

  • 1. /25 Learning to Compose Neural Networks for Question Answering Jacob Andreas et al. NAACL HLT 2016(Best Paper) 박상현(ESCA Lab) 1
  • 2. /25 Abstract (1/2)  Dynamic Neural Module Network  이미지와 구조적 지식 베이스 모두에 적용 가능한, 동적으로 조립되는 뉴 럴 네트워크 QA 모델. 2
  • 3. /25 Abstract (2/2)  질문 문장을 구문 분석하여 모듈의 컬렉션으로부터 맞춤형 뉴럴 네트워크를 동적으 로 구축.  이 네트워크를 이미지 또는 지식 베이스에 적용하여 답변을 생성함.  각 모듈의 매개변수와 Network Layout 매개변수는 강화학습을 통해 공동으로 학습 됨. 질문 파싱 모듈로부터 뉴럴 네트워크 후보 생성 뉴럴 네트워크 선택 답변 생성 Lookup Find Relate Describe ExistsAnd Images KB 3
  • 4. /25 1. Introduction (1/3)  이 논문은 다양한 World representation에 대한 QA 작업을 수행하 는 Compositional, Attentional 모델을 제시함.  논문의 모델은 공동으로 학습되는 두 가지 컴포넌트로 구성됨. 1) Neural Module Collection 2) Layout Predictor Image, Knowledgebase 4
  • 5. /25 1. Introduction (2/3)  VQA를 위한 모듈 기반의 뉴럴 네트워크는 이미 이전 논문(Andreas et al., 2016)에서 제시됨.  이전 논문 대비 본 논문의 개선점은 다음 두가지임.  1) 학습이 가능한 뉴럴 네트워크 Layout 예측기.  2) 이미지에서만 사용이 가능했던 Visual Primitive를 Knowledge base에 대 해서도 추론이 가능하도록 확장. 5
  • 6. /25 1. Introduction (3/3)  이 모델의 학습데이터는 다음 세가지로 구성 됨.  world  question  answer  Unsupervised 학습을 수행.  이 모델은 자연 이미지(VQA)와 US 지리 정보(GeoQA) 에 대한 QA 작업에서 state of the art 성능을 성취함. 6
  • 7. /25 2. Deep networks as functional programs (1/4)  저자의 이전 논문에서 VQA 작업을 Modular Sub Problem으로 분해하는 Heuristic한 방법을 제시함. ① 질문을 Stanford Parser로 파싱하여 universal dependency representation(tree) 취득 ② 그 다음, wh-단어 또는 연결동사에 연결된 디펜던시의 집합을 필터함  ex) what is standing in the field?  what(stand) what color is the cat?  color(cat) is there a circle next to a square?  is(circle, next-to(square)) ③ 모든 Leaf는 find 모듈, 모든 내부 노드는 transform 또는 combine 모듈, 그리고 루트 노 드는 describe 또는 measure 모듈로 구성 ex) what color is the cat?  describe[color](find[cat]) where is the truck?  describe[where](find[truck]) 7 본 논문에서는 이 과정을 학습을 통해 결정
  • 8. /25 2. Deep networks as functional programs (2/4) Attention Labeling “What color is the bird?” “Where is the bird?” (find) “What color is that part of the image?” (describe) 8
  • 9. /25 2. Deep networks as functional programs (3/4) Attention Labeling “Are there any state?” “where are the states?” (find) “does the state exist?” (Exists) 9
  • 10. /25 2. Deep networks as functional programs (4/4)  2 contributions of this paper. 1) Knowledge base에 대해서도 attention 메커니즘을 적용할 수 있도록 확 장하고 일반화함. 2) 모듈을 구조적으로 조립하는 것을 학습하는 모델  Dynamic Neural Module Network  질문 문장을 구문 분석하여 구성 가능한 모듈의 컬렉션으로부터 뉴럴 네 트워크를 동적으로 구축하는 모델. 10
  • 11. /25 3. Related work  Database QnA  Wong & Mooney, 2007; Kwiatkowski et al., 2010; Liang et al., 2011; Andreas et al., 2013  Neural models for QnA  Iyyer et al., 2014; Bordes et al., 2014; Yang et al., 2015; Malinowski et al., 2015  Visual QnA  Simonyan and Zisserman, 2014; Xu et al., 2015; Yang et al., 2015  Formal logic and representation learning  Beltagy et al., 2013; Lewis & Steedman, 2013; Malinowski & Fritz, 2014  Fixed tree structure using universal parser  Bottou et al., 1997; Socher et al., 2011; Bottou, 2014 11
  • 12. /25 4. Model  The goal  Layout model  Predict Layout from a Question : 𝑝(𝑧|𝑥; 𝜃𝑙)  Execution model  Generate answer from W/R : 𝑝 𝑧 (𝑦|𝑤; 𝜃𝑒) Questions World Representations (Images, Knowledge bases) Answers map 12
  • 13. /25 4.1. Evaluating Modules  Execution Model : 𝑝 𝑧 𝑦 𝑤 = ([𝑧] 𝑤) 𝑦  z의 substructure를 명시적으로 언급할 때, ([𝑧] 𝑤) 𝑦를 다음과 같이 나타낼 수 있음. ([𝑧] 𝑤) 𝑦= [𝑚(ℎ1, ℎ2)]  layout z의 집합은 각 module의 다음 두 가지 Type Constraint에 의해 제한됨.  Attention : A distribution over pixels or entities  Labels : a distribution over answers. [𝑧] 𝑤: 입력 W/R w에 대한 레이아웃 z의 출력 m은 root 모듈, h1, h2는 submodule의 output(attention) 13
  • 14. /25 4.1. Evaluating Modules  다른 네트워크의 모듈 인스턴스끼리 파라미터를 공유(Parameter Tying)할 수 있음.  각 모듈은 Parameter Arguments 또는 Ordinary Inputs 을 가짐.  Parameter Arguments  layout으로부터 제공 받으며, 어휘 요소에 대한 모듈의 기능을 특정할 때 사용됨.  ex) what color is the cat?  describe[color](find[cat])  Ordinary Inputs :  하위 네트워크의 계산 결과  ex) what color is the cat?  describe[color](find[cat]) 14
  • 15. /25 4.1. Evaluating Modules • 𝑤1 , 𝑤2 ,… : world representation • W : world representation expressed as a matrix • σ : ReLU • h : attention • 𝑤(ℎ) = 𝑘 ℎ 𝑘 𝑤 𝑘 (ℎ 𝑘는 h의 k번째 요소) • A, a, B, b, … : Global weights • 𝑢 𝑖 , 𝑣 𝑖 : Weights associated with the parameter argument i • i : Parameter Argument 𝜃𝑒 ex) describe[color](find[cat]) 15
  • 16. /25 4.1. Evaluating Modules  각 네트워크 레이아웃의 최상위 모듈이 describe 또는 exists 모듈 이라고 가정하면, 조립된 전체 네트워크는 출력 레이블 상의 분포 에 상응함.  학습을 위해 관찰된 z에 대해 (𝑤,𝑦,𝑧) log 𝑝 𝑧 (𝑦|𝑤; 𝜃𝑒 )를 최대화 시 킴. 16
  • 17. /25 4.2. Assembling networks  Layout 선정 과정 1) layout 후보 집합 생성. 2) 각 후보 Scoring 하여 Top 1 선택. 17
  • 18. /25 4.2. Assembling networks 1) layout 후보 집합 생성 ① 입력 문장을 dependency tree로 표현 ② wh-word 또는 연결동사에 붙어있는 모든 명사, 동사, 전치사구를 수집 ③ 각 단어, 구를 layout fragment에 연관시킴. - 일반 명사(city) : find - 고유 명사(Georgia) : lookup - 전치사구(in) : relate ④ layout fragment 집합의 하위 집합을 구성. - and 모듈로 모든 하위 fragment를 결합 - measure 또는 describe 모듈을 최상위에 얹음. 논문의 오타로 판단됨. measure는 이전 논문에서 있었지만 본 논문에는 없어짐. measure 대신 exists가 와야 함. 18
  • 19. /25 4.2. Assembling networks 2) 각 후보의 점수를 측정하여 최종 선택. ① 질문 문장의 LSTM representation과 query(layout)의 feature based representation를 생성. ② ①에서 얻은 LSTM representation과 feature representation을 이용하여 Score 𝑠 𝑧𝑖 𝑥 계산 𝑠 𝑧𝑖 𝑥 = 𝑎 𝑇 𝜎(𝐵ℎ 𝑞 𝑥 + 𝐶𝑓 𝑧𝑖 + 𝑑) ③ 이 스코어로부터 확률분포를 얻기 위해 Softmax로 정규화 수행 𝑝 𝑧𝑖 𝑥; 𝜃𝑙 = 𝑒 𝑠(𝑧 𝑖|𝑥) 𝑗=1 𝑛 𝑒 𝑠(𝑧 𝑗|𝑥) 𝜃𝑙 = {𝑎, 𝐵, 𝐶, 𝑑} 는 Layout Parameter ℎ 𝑞 𝑥 : x는 질문문장 𝑓 𝑧𝑖 : i번째 후보 네트워크(z)의 임베딩 19
  • 20. /25 4.2. Assembling networks  저자는 다음과 같은 이유로 강화학습을 이용.  Key Constraint :  계산 비용이 비싼 execution model 𝑝 𝑧 𝑦 𝑤; 𝜃𝑒 의 평가량을 최소화 해야 하는 반면, layout model의 평가 (모든 z에 대한 𝑝 𝑧 𝑥; 𝜃𝑙 계산;scoring도 여기에서 이루어짐) 는 비용이 저렴함.  이와는 반대로, semantic parsing에서는 쿼리 Execution model은 계산 비용 이 저렴하고, 점수를 철저히 매기기에는 구문 분석 결과 집합이 너무 큼.  오히려 이 모델의 제약 사항은 강화 학습에서 에이전트가 처하는 시나리 오와 유사함. (action을 scoring하는 비용은 저렴하지만 action을 실행하고 보상을 취득하는 비용은 비쌈) 20
  • 21. /25 4.2. Assembling networks  저자들은 자신들의 모델을 stochastic policy로 표현하여 학습 과정을 모 델링함. ① log 𝑝(𝑧|𝑥; 𝜃𝑙)로부터 z를 샘플링 ② 샘플링한 z를 knowledge source에 적용하고 답변 p 𝑦 𝑧, 𝑤; 𝜃𝑒 상의 분포를 얻음. ③ 네트워크 z가 선택되면, log 𝑝 (𝑦|𝑧, 𝑤; 𝜃𝑒)를 최대화함으로써 execution model을 학습시킬 수 있음. 확률 분포에 의해 샘플링하는 과정은 미분이 불가능하므로 Policy Gradient Method 를 이용하여 𝑝(𝑧|𝑥; 𝜃𝑙) 를 최적화함.  𝛻𝐽 𝜃𝑙 = 𝐸[𝛻 log 𝑝 (𝑧|𝑥; 𝜃𝑙) ∙ 𝑟] 𝛻𝐽 𝜃𝑙 = 𝐸[𝛻 log 𝑝 (𝑧|𝑥; 𝜃𝑙) ∙ log 𝑝 (𝑦|𝑧, 𝑤; 𝜃𝑒)] r : 보상 execution modellayout model 21
  • 24. /25 6. Conclusion  Dynamic Neural Module Network :  비구조적(예:이미지) 또는 구조적(예:XML 데이터)에 대해 Q&A 작업 가능  Question, Answer, World Representation만으로 모듈을 조립하는 과정을 학 습. 24

Notes de l'éditeur

  1. 언어적 조합성 : linguistic compositionality 조합성의 원리 : 전체의 의미는 부분들의 의미와, 부분들이 결합하는 방식인 문법 구조에 의존한다. 연속적 표현 : continuous representations 이미지 인식과 캡셔닝 분야의 성공적인 딥 뉴럴 모델의 등장  logical form 대신 뉴럴 네트워크를 구축함으로써, 이 논문의 모델은 언어적 조합성과 연속적 표현의 측면을 모두 활용할 수 있음.
  2. 언어적 조합성 : linguistic compositionality 조합성의 원리 : 전체의 의미는 부분들의 의미와, 부분들이 결합하는 방식인 문법 구조에 의존한다. 연속적 표현 : continuous representations 이미지 인식과 캡셔닝 분야의 성공적인 딥 뉴럴 모델의 등장  logical form 대신 뉴럴 네트워크를 구축함으로써, 이 논문의 모델은 언어적 조합성과 연속적 표현의 측면을 모두 활용할 수 있음.
  3. 언어적 조합성 : linguistic compositionality 조합성의 원리 : 전체의 의미는 부분들의 의미와, 부분들이 결합하는 방식인 문법 구조에 의존한다. 연속적 표현 : continuous representations
  4. In his previous work, the author already figured out a heuristic approach, for decomposing visual question answering tasks into sequence of modular sub-problems. For example, the question What color is the bird? might be answered in two steps: first, “where is the bird?” second, “what color is that part of the image?”
  5. Andreas et al(2016) 에서 시각적 질문에 대한 답변 작업을 하위 문제 모듈의 시퀀스로 분해하는 휴리스틱 접근법을 설명. find는 이미지 피쳐와 어휘 항목을 픽셀의 분포로 매핑하는 뉴럴네트워크의 조각으로 표현될 수 있음. * 깜짝 퀴즈 : 이것을 뭐라고 할까요? Attention mechanism Attention: a distribution over pixels or entities. Labels: a distribution over answers.
  6. Andreas et al(2016) 에서 시각적 질문에 대한 답변 작업을 하위 문제 모듈의 시퀀스로 분해하는 휴리스틱 접근법을 설명. find는 이미지 피쳐와 어휘 항목을 픽셀의 분포로 매핑하는 뉴럴네트워크의 조각으로 표현될 수 있음. * 깜짝 퀴즈 : 이것을 뭐라고 할까요? Attention mechanism
  7. 1) An extension and generalization of the attention mechanism to enable fully-differentiable reasoning about more structured semantic representations. 어텐션 메컨니즘의 업그레이드. structured semantic representation 에 대해 fully 미분가능한 추론을 가능하게 함으로써 모듈간의 Integration이 가능하게 함. describe과 exists를 제외한 나머지 모듈둘의 output은 attention임. 각 모듈은 독립적인 뉴럴 네트워크라고 볼 수 있는데, heterogeneous 뉴럴 네트워크를 결합하고 나서도 back propagation을 가능하게 하려면 미분이 가능해야 하므로 이런 여기에 노력을 기울였을 것으로 예상됨.
  8. Formal logic and represetntation learning : 설명을 좀 찾아두자
  9. 질문으로부터 특정 layout z가 나올 확률 -> 질문 자체를 “네트워크 레이아웃 후보의 집합"으로 봐도 됨. W/R로부터 답변 y가 나올 확률
  10. some modules (like find above) operate directly on the input representation, while others (like describe above) also depend on input from specific earlier modules. 논문은 Layout z가 주어졌다고 가정하고 해당 섹션을 설명함. 1. 레이아웃 z의 최상위 모듈이 레이블 y상의 분포를 출력한다고 가정
  11. 특정 lexical item에 관련된 parameter argument의 Weight도 타잉이 되고, 모듈 자체의 Weight도 타잉이 됨.
  12. Lookup은 고유명사, Find는 일반명사에 대해 사용. Relate는 find와 비슷하지만 attention h의 현재 영역에 따라 기능에 영향을 준다. Describe와 Exist는 root 모듈로써 사용된다. 레이아웃은 각 모듈의 Type Constraint에 의해 제한됨. Lookup : input -> Attention Find: input -> Attention Relate : Attention -> Attention And : Attention* -> Attention Describe : Attention -> Labels Exists : Attention -> Labell
  13. “Assemble”이라고 나와 있지만 Network Layout 선정 과정에 관한 설명 layout 후보 집합 생성에 대해서는 다음 페이지에서 설명하겠으나, 휴리스틱한 방법으로 만듦. 2. 'Semantic primitive' is a concept from semantics. It is understood as a term used to explain other terms or concepts, but which cannot itself be explained by other terms. Implicitly it may be assumed that terms are primitive regardless of context or perspective, why an analysis of a complex term or concept to its primitives is a matter of logic rather than theoretical perspective.  Standford Dependecy Parser가 제공한 구문 구조를 사용함. 왜 사용했냐면, 4.2서두부터 설명한 내용이 그 이유임… 이해 안돼… Continuous Representation 어쩌고가 나오는데.. 몰라 무서워… 제공받은 구문 구조에 따라 취할 수 있는 네트워크 구조 후보를 열거하고, 질문 문장을 주어진 때의 네트워크에 대한 조건부 확률을 평가하여 네트워크를 결정
  14. 이 과정을 거쳐 형성된 모든 레이아웃은 최대 하나의 접속사, 하나의 수량사를 가지는 상대적으로 평평한 트리 구조를 가짐. 굉장히 단순화된 assumption이지만 VQA, GeoQA를 대부분 커버하는 것으로 나타났다.
  15. 이 과정을 거쳐 형성된 모든 레이아웃은 최대 하나의 접속사, 하나의 수량사를 가지는 상대적으로 평평한 트리 구조를 가짐. 굉장히 단순화된 assumption이지만 VQA, GeoQA를 대부분 커버하는 것으로 나타났다. - question은 sentence representation, 질문을 말하고, query는 (describe[color] find[bird])와 같은 변형된 질문을 말함. - query의 feature based representation은 layout에 존재하는 각 유형의 모듈 수에 대한 지표 뿐 아니라 parameter argument도 포함함.
  16. DNMN의 execution model은 large input representation을 처리하는 deep network가 사용되기 때문에 계산량이 많음. 강화학습에는 가치 기반 학습과 정책 기반 학습 두가지가 있음. 가치 기반 학습은 어떤 action이 가치가 있는지를 계산하는 함수를 기반으로 동작. 정책 기반 학습은 action이 여러 개 이거나, action이 연속적인 경우에 사용하면 됨. Policy Gradient는 강화 학습을 사용한 알파고도 사용함. Policy Gradient Method를 사용하는 이유 : z의 Hard Selection이 미분 불가능하기 때문에, p(𝑧|𝑥; 𝜃 𝑙 )를 최적하 하기 위해서 사용함. 질문 문장이 주어지면 선택 가능한 후보의 수 또한 정해진다고 볼 수 있는데, 각 후보를 취하는 것을 action이라 할 수 있다.
  17. - Stochastic Policy를 사용하는 이유 : 저자들이 말하길, common approach라서 이 모델에서 Stochastic Policy를 사용한다는 거의 의미 : 확률에 따라 action을 취함(layout 선택) - 강화학습에서 policy에 log를 취하면 score가 됨. Policy Gradient Method는 미분 불가능한 연산을 가지는 뉴럴 네트워크에서 Back Propagation을 가능하게 함. Recurrent Models of Visual Attention(Volodymyr Mnih, Nicolas Heess, Alex Graves, Koray Kavukcuoglu)에서 처음으로 소개됨. z의 Hard Selection이 미분 불가능하기 때문에. p(𝑧|𝑥; 𝜃 𝑙 )를 최적화하기 위해서 사용함. policy gradient 유도 : http://karpathy.github.io/2016/05/31/rl/ policy gradient 참조 : http://keunwoochoi.blogspot.kr/2016/06/andrej-karpathy.html
  18. 저자들이 생각하는 모델의 성능 factor : Continuous Representation이 Semantic parser의 표현력과 학습 가능성을 향상시킨다는 점 : discrete predicate를 미분 가능한 뉴럴 네트워크 fragment로 교체함으로써, semantic lexicon의 도입과 관련된 조합 최적화 문제를 건너뛸 수 있음. 구조적인 world representation에서는, neural predicate representation은 모델로 하여금 스키마에서 표현되지 않은 재사용 가능한 특성과 관계를 만들 수 있도록 함. Semantic structure prediction은 딥 네트워크에서의 일반화를 향상시킴. 고정된 네트워크 토폴로지를 동적 네트워크 토폴로지로 바꿈으로써, 각 문제 사례에 대해 수행되는 계산을 테일러링할 수 있음. speed와 sampling 효율면에서 더 나은 성능을 보임.