近期断断续续的看了一些transformer相关的paper,看的比较杂,有些是对应领域比较有代表性地工作。偷个懒就不详细介绍每篇Paper,简单地记录一下这些paper大致要解决地问题。
1. MAE:Masked Autoencoders Are Scalable Vision Learners
自监督学习方法,核心思想是以一定比例随机 mask 掉图片中的一些图像块(patch)然后重建这些部分的像素值
2.SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
设计多层次backbone MIT,丢弃PE,优化self-att加速推理,此外从SETR痛点出发设计轻量级MLP解码器
3.Early Convolutions Help Transformers See Better
Vit训练不稳定在于Patch Embedding时使用大卷积核以及大步长导致,进一步提出使用step-wise conv stem进行替换,以此改进vit训练稳定性问题
4.Visformer: The Vision-friendly Transformer
提升transformer方法的性能下限,即使是小数据集依然可以得到很好的性能
5.Conditional Positional Encodings for Vision Transformers
利用卷积+zero-padding来编码局部位置信息,从而丢弃现有的PE,解决输入大小变化时需要对PE进行插值和fine-tune的问题
6.MetaFormer is Actually What You Need for Vision
transformer优于cnn在于其结构,而不是attention,即使替换成pooling,也能达到不错的性能
7.Per-Pixel Classification is Not All You Need for Semantic Segmentation
提出了一种新的分割范式,解耦分割和分类,统一语义分割和实例分割任务