Le document explore le mécanisme des Transformeurs en vision par ordinateur, en mettant l'accent sur le Vision Transformer (ViT) et son fonctionnement par rapport aux CNN. Il aborde notamment les étapes de self-attention, les méthodes de pré-entraînement et de fine-tuning, ainsi que des comparaisons avec les modèles basés sur CNN. Enfin, il discute des défis liés à la complexité computationnelle des Transformeurs et présente le Swin Transformer comme une solution potentielle.