Introduction
• 멀티모달이 필요한 이유?
: 언어는 글로만 이루어져 있지 않고 말하는 사람의 목소리, 표정 등이 전부 발화의 의미를 담고
있음
-> 텍스트 데이터에 더해 음성 데이터, 얼굴 표정 데이터 등을 결합해 모델로 하여금 더 잘
이해할 수 있도록 함
Multimodal model Sentimental analysis
Text
Image
Speech
기존 연구의 한계점
서로 다른 modality => 서로 다른 시퀀스 길이, 따라서 길이를 동일하게 맞추는 작업이 필요함 : Alignment
이것은 LSTM에 적용할 경우 long term multimodality를 반영하기 힘듦
1D convolution + positional embedding
• 어텐션 스코어끼리의 연산을 위해 차원수를 맞춰줌
• Local dependency 반영을 기대함
• Learned Vector 대신 original transformer와
같이 Sinusoidal Vector 사용