Vision Transformers

Edit

Computer Vision • Image Models • 45 methods

Vision Transformers are Transformer-like models applied to visual tasks. They stem from the work of ViT which directly applied a Transformer architecture on non-overlapping medium-sized image patches for image classification. Below you can find a continually updating list of vision transformers.

According to [1], ViT type models can be further categorized into uniform scale ViTs, multi-scale ViT, hybrid ViTs with convolutions, and self-supervised ViTs. The methods listed below provide a comprehensive overview of ViT models applied to a range of vision tasks.

[1] Transformers in Vision: A Survey

Methods

Add a Method

Method	Year	Papers
Vision Transformer An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale	2020	1448
Swin Transformer Swin Transformer: Hierarchical Vision Transformer using Shifted Windows	2021	297
Detr End-to-End Object Detection with Transformers	2020	170
DINO Emerging Properties in Self-Supervised Vision Transformers	2021	108
DeiT Training data-efficient image transformers & distillation through attention	2020	79
Deformable DETR Deformable DETR: Deformable Transformers for End-to-End Object Detection	2020	28
NesT Nested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual Understanding	2021	27
CCT Escaping the Big Data Paradigm with Compact Transformers	2021	24
PVT Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions	2021	23
DPT Vision Transformers for Dense Prediction	2021	18
CvT CvT: Introducing Convolutions to Vision Transformers	2021	11
T2T-ViT Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet	2021	10
MobileViT MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer	2021	10
MViT Multiscale Vision Transformers	2021	9
TNT Transformer in Transformer	2021	9
LV-ViT All Tokens Matter: Token Labeling for Training Better Vision Transformers	2021	8
Bottleneck Transformer Bottleneck Transformers for Visual Recognition	2021	8
MoCo v3 An Empirical Study of Training Self-Supervised Vision Transformers	2021	7
PVTv2 PVT v2: Improved Baselines with Pyramid Vision Transformer	2021	4
CoaT Co-Scale Conv-Attentional Image Transformers	2021	4
CaiT Going deeper with Image Transformers	2021	4
XCiT XCiT: Cross-Covariance Image Transformers	2021	4
Focal Transformers Focal Self-attention for Local-Global Interactions in Vision Transformers	2021	4
CrossViT CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification	2021	3
ConViT ConViT: Improving Vision Transformers with Soft Convolutional Inductive Biases	2021	3
nnFormer nnFormer: Interleaved Transformer for Volumetric Segmentation	2021	3
MUSIQ MUSIQ: Multi-scale Image Quality Transformer	2021	3
CrossTransformers CrossTransformers: spatially-aware few-shot transfer	2020	3
VATT VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text	2021	2
LeVIT LeViT: a Vision Transformer in ConvNet's Clothing for Faster Inference	2021	2
CPVT Conditional Positional Encodings for Vision Transformers	2021	2
CeiT Incorporating Convolution Designs into Visual Transformers	2021	2
BatchFormer BatchFormer: Learning to Explore Sample Relationships for Robust Representation Learning	2022	2
DeepViT DeepViT: Towards Deeper Vision Transformer	2021	1
OODformer OODformer: Out-Of-Distribution Detection Transformer	2021	1
Colorization Transformer Colorization Transformer	2021	1
Visformer Visformer: The Vision-friendly Transformer	2021	1
Twins-PCPVT Twins: Revisiting the Design of Spatial Attention in Vision Transformers	2021	1
Twins-SVT Twins: Revisiting the Design of Spatial Attention in Vision Transformers	2021	1
Shuffle-T Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer	2021	1
RegionViT RegionViT: Regional-to-Local Attention for Vision Transformers	2021	1
LocalViT LocalViT: Bringing Locality to Vision Transformers	2021	1
EsViT Efficient Self-supervised Vision Transformers for Representation Learning	2021	1
MHMA Rendezvous: Attention Mechanisms for the Recognition of Surgical Action Triplets in Endoscopic Videos	2021	1

Vision Transformers Edit

Methods Add a Method

Vision Transformers

Edit

Methods

Add a Method