SlideShare une entreprise Scribd logo
1  sur  12
Télécharger pour lire hors ligne
Multimodal Transformer for Unaligned
Multimodal Language Sequences
유용상
ACL 2019
2022.11.8 NLP 스터디
Introduction
• 멀티모달이 필요한 이유?
: 언어는 글로만 이루어져 있지 않고 말하는 사람의 목소리, 표정 등이 전부 발화의 의미를 담고
있음
-> 텍스트 데이터에 더해 음성 데이터, 얼굴 표정 데이터 등을 결합해 모델로 하여금 더 잘
이해할 수 있도록 함
Multimodal model Sentimental analysis
Text
Image
Speech
기존 연구의 한계점
서로 다른 modality => 서로 다른 시퀀스 길이, 따라서 길이를 동일하게 맞추는 작업이 필요함 : Alignment
이것은 LSTM에 적용할 경우 long term multimodality를 반영하기 힘듦
Overall Architecture
Vectorize
Glove Vector 사용
Facet 라이브러리 사용
COVAREP 라이브러리 사용
1D convolution + positional embedding
• 어텐션 스코어끼리의 연산을 위해 차원수를 맞춰줌
• Local dependency 반영을 기대함
• Learned Vector 대신 original transformer와
같이 Sinusoidal Vector 사용
Crossmodal Transformer
Target Source
Crossmodal Transformer
Prediction
FC layer
experiments
experiments
experiments

Contenu connexe

Plus de YongSang Yoo (10)

20230727_tinystories
20230727_tinystories20230727_tinystories
20230727_tinystories
 
20230608_megabyte
20230608_megabyte20230608_megabyte
20230608_megabyte
 
221220_페르소나챗봇
221220_페르소나챗봇221220_페르소나챗봇
221220_페르소나챗봇
 
220920_AI ETHICS
220920_AI ETHICS220920_AI ETHICS
220920_AI ETHICS
 
230309_LoRa
230309_LoRa230309_LoRa
230309_LoRa
 
230305_Characterizing English Variation across Social Media Communities with ...
230305_Characterizing English Variation across Social Media Communities with ...230305_Characterizing English Variation across Social Media Communities with ...
230305_Characterizing English Variation across Social Media Communities with ...
 
230223_Knowledge_Distillation
230223_Knowledge_Distillation230223_Knowledge_Distillation
230223_Knowledge_Distillation
 
221011_BERT
221011_BERT221011_BERT
221011_BERT
 
220910_GatedRNN
220910_GatedRNN220910_GatedRNN
220910_GatedRNN
 
220906_Glove
220906_Glove220906_Glove
220906_Glove
 

Dernier

Dernier (6)

TDM(Text Data Mining) Studio manual(2024)
TDM(Text Data Mining) Studio manual(2024)TDM(Text Data Mining) Studio manual(2024)
TDM(Text Data Mining) Studio manual(2024)
 
코딩 테스트 합격자 되기 C++ 00장~ 01장을 정리한 강의자료 입니다.
코딩 테스트 합격자 되기 C++ 00장~ 01장을 정리한 강의자료 입니다.코딩 테스트 합격자 되기 C++ 00장~ 01장을 정리한 강의자료 입니다.
코딩 테스트 합격자 되기 C++ 00장~ 01장을 정리한 강의자료 입니다.
 
친환경, 그린, 탄소저감 미래 교육 공간 디자인의 이해와 사례들에 대한 강의 자료
친환경, 그린, 탄소저감  미래 교육 공간 디자인의 이해와 사례들에 대한 강의 자료친환경, 그린, 탄소저감  미래 교육 공간 디자인의 이해와 사례들에 대한 강의 자료
친환경, 그린, 탄소저감 미래 교육 공간 디자인의 이해와 사례들에 대한 강의 자료
 
바리스타이론기초-1 수정 후 111111111111111111111111
바리스타이론기초-1 수정 후 111111111111111111111111바리스타이론기초-1 수정 후 111111111111111111111111
바리스타이론기초-1 수정 후 111111111111111111111111
 
이번에 새로 나온 코딩 테스트 합격자 되기 C++편 책을 소개하는 PPT 입니다.
이번에 새로 나온 코딩 테스트 합격자 되기 C++편 책을 소개하는 PPT 입니다.이번에 새로 나온 코딩 테스트 합격자 되기 C++편 책을 소개하는 PPT 입니다.
이번에 새로 나온 코딩 테스트 합격자 되기 C++편 책을 소개하는 PPT 입니다.
 
코딩테스트 합격자 되기 C++ 03장(시간 복잡도)를 설명한 ppt입니다
코딩테스트 합격자 되기 C++ 03장(시간 복잡도)를 설명한 ppt입니다코딩테스트 합격자 되기 C++ 03장(시간 복잡도)를 설명한 ppt입니다
코딩테스트 합격자 되기 C++ 03장(시간 복잡도)를 설명한 ppt입니다
 

221108_Multimodal Transformer