Transformer 杂记

近期断断续续的看了一些transformer相关的paper,看的比较杂,有些是对应领域比较有代表性地工作。偷个懒就不详细介绍每篇Paper,简单地记录一下这些paper大致要解决地问题。

1. MAE:Masked Autoencoders Are Scalable Vision Learners

自监督学习方法,核心思想是以一定比例随机 mask 掉图片中的一些图像块(patch)然后重建这些部分的像素值

2.SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

设计多层次backbone MIT,丢弃PE,优化self-att加速推理,此外从SETR痛点出发设计轻量级MLP解码器

3.Early Convolutions Help Transformers See Better

Vit训练不稳定在于Patch Embedding时使用大卷积核以及大步长导致,进一步提出使用step-wise conv stem进行替换,以此改进vit训练稳定性问题

4.Visformer: The Vision-friendly Transformer

提升transformer方法的性能下限,即使是小数据集依然可以得到很好的性能

5.Conditional Positional Encodings for Vision Transformers

利用卷积+zero-padding来编码局部位置信息,从而丢弃现有的PE,解决输入大小变化时需要对PE进行插值和fine-tune的问题

6.MetaFormer is Actually What You Need for Vision

transformer优于cnn在于其结构,而不是attention,即使替换成pooling,也能达到不错的性能

7.Per-Pixel Classification is Not All You Need for Semantic Segmentation

提出了一种新的分割范式,解耦分割和分类,统一语义分割和实例分割任务