type
status
date
slug
summary
tags
category
icon
password
相关论文
DVSR
Consistent Direct Time-of-Flight Video Depth Super-Resolution
DVSRCODD
Temporally Consistent Online Depth Estimation in Dynamic Scenes
CODDEMA-VFI
Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation
EMA-VFI专栏整理
ViT相关发展
vision transformer将用于NLP的transformer应用在CV中【ICLR‘21】
将的图像特征切成一个一个的patch(如),将patch堆积成序列(长度为9),之后将方块序列通过一维变换(如flatten+linear或CNN)通入transformer中
transformer有全局注意力,CNN只有局部注意力
对于Image2Seq的改进
- PatchSeq
- Flatten + Linear
- CNN
- TNT:将映射的架构改成transformer-based的架构
- CeiT:CNN→PatchSeq,对输入的图像先进行CNN处理,之后再变成Patch,使得patch的边缘向量与先前的不同
- Random Patch Projection:将linear映射,变成不用训练的gaussian projection可以使得训练过程更加稳定
自注意力机制改进
- DeepViT:解决深层的attention矩阵趋同的趋势,提出Re-Attn,使得层数增多效果依旧有提升
- CVT(2D),PVT(1D):将计算attention的linear映射(QKV计算的时候)改成convolutional projection,提供带空间信息的QKV
- Swin Transformer:将全局的mask变成local mask,减少计算量(很像CNN)
FFN改进
- 传统的是将1D→4D→1D(linear transformation相当于1x1 conv)
- LeFF:CeiT,LocalViT,在两个1x1 conv中增加depth-wise的conv,使得整个过程中关注的不再是point-wise的,而是带有局部视野的信息
输出的改进
- Pyramid:transformer输出与输入的长度相同,则图像的尺寸相对于未patch前的有缩小,形成金字塔形状特征,与CNN产生的特征有较强特征
训练策略改进
- 蒸馏(distillation):DeiT,基于transformer的模型需要较为大量的数据进行训练,CNN teacher来蒸馏出知识,基于小数据量也能产生很多知识(数据)
- 自监督(self-supervised):如Random Patch Projection,不去训练其中的参数,可以使得训练过程稳定性提升
鲁棒性
- ViT在有足够数据的情况下鲁棒性更强(全局观察)
- 用于攻击的图像在CNN和ViT之间没有很好的迁移性(可以使用CNN蒸馏)
- 最后几层可以被移除
- Robustness
- Training Strategy
- Model improvement
- 作者:王大卫
- 链接:https://tangly1024.com/article/essay-signal-processing
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。