Sangmin Woo

1 Abonnés

cvpr scene graph self-supervised learning fair transformer video action transformer network transformer in vision action recognition cvpr 2019 missing modality multimodal learning vision transformer video transformer mãe masked autoencoder iccv vcr visual commonsense reasoning moment retrieval video grounding multimodal action recongnition dataset cvpr 2021 google research openai unit align dall-e clip nips icml iclr efficient transformers réformer big bird transformers are rnns performer an image is worth 16x16 words end-to-end object detection with transformers image transformer cvpr 2020 scene graph generation visual relationship detection graph convolutional network graph r-cnn eccv 2018

Tout plus

Présentations
Documents
Infographies

Plus récents Les plus populaires

Sangmin Woo

Multimodal Learning with Severely Missing Modality.pptx

Video Transformers.pptx

Masked Autoencoders Are Scalable Vision Learners.pptx

An Empirical Study of Training Self-Supervised Vision Transformers.pptx

Visual Commonsense Reasoning.pptx

Video Grounding.pptx

Action Recognition Datasets.pptx

Exploring Simple Siamese Representation Learning

Recent Breakthroughs in AI + Learning Visual-Linguistic Representation in the Wild

Towards Efficient Transformers

Transformer in Vision

Action Genome: Action As Composition of Spatio Temporal Scene Graphs

Neural motifs scene graph parsing with global context

Attentive Relational Networks for Mapping Images to Scene Graphs

Graph R-CNN for Scene Graph Generation