🗒️论文-ToF时序
00 分钟
2023-11-2
2024-5-8
type
status
date
slug
summary
tags
category
icon
password

相关论文

DVSR

Consistent Direct Time-of-Flight Video Depth Super-Resolution
DVSR

CODD

Temporally Consistent Online Depth Estimation in Dynamic Scenes
CODD

EMA-VFI

Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation
EMA-VFI

专栏整理

ViT相关发展

vision transformer将用于NLP的transformer应用在CV中【ICLR‘21】
的图像特征切成一个一个的patch(如),将patch堆积成序列(长度为9),之后将方块序列通过一维变换(如flatten+linear或CNN)通入transformer中
transformer有全局注意力,CNN只有局部注意力
notion image
notion image

对于Image2Seq的改进

  • PatchSeq
    • Flatten + Linear
    • CNN
    • TNT:将映射的架构改成transformer-based的架构
  • CeiT:CNN→PatchSeq,对输入的图像先进行CNN处理,之后再变成Patch,使得patch的边缘向量与先前的不同
  • Random Patch Projection:将linear映射,变成不用训练的gaussian projection可以使得训练过程更加稳定

自注意力机制改进

  • DeepViT:解决深层的attention矩阵趋同的趋势,提出Re-Attn,使得层数增多效果依旧有提升
  • CVT(2D),PVT(1D):将计算attention的linear映射(QKV计算的时候)改成convolutional projection,提供带空间信息的QKV
  • Swin Transformer:将全局的mask变成local mask,减少计算量(很像CNN)

FFN改进

  • 传统的是将1D→4D→1D(linear transformation相当于1x1 conv)
  • LeFF:CeiT,LocalViT,在两个1x1 conv中增加depth-wise的conv,使得整个过程中关注的不再是point-wise的,而是带有局部视野的信息
    • notion image

输出的改进

  • Pyramid:transformer输出与输入的长度相同,则图像的尺寸相对于未patch前的有缩小,形成金字塔形状特征,与CNN产生的特征有较强特征

训练策略改进

  • 蒸馏(distillation):DeiT,基于transformer的模型需要较为大量的数据进行训练,CNN teacher来蒸馏出知识,基于小数据量也能产生很多知识(数据)
  • 自监督(self-supervised):如Random Patch Projection,不去训练其中的参数,可以使得训练过程稳定性提升

鲁棒性

  1. ViT在有足够数据的情况下鲁棒性更强(全局观察)
  1. 用于攻击的图像在CNN和ViT之间没有很好的迁移性(可以使用CNN蒸馏)
  1. 最后几层可以被移除
 
 
 
 
 
 
  • Robustness
  • Training Strategy
  • Model improvement

评论
Loading...