工作出发点(动机)工作的构思(创新点)技术方案Extract Motion and Appearance InformationOverall Pipeline实验结果(略)消融实验分析可视化效果总结与展望
工作出发点(动机)
关于appearance的理解,作者在知乎上有回答:https://zhuanlan.zhihu.com/p/613539233
- 我们提到的单帧appearance信息指的是某个区域在某一帧的外观信息(如DAIN和ContextNet中的context),帧间appearance信息是指某个区域在两帧的对应位置信息的聚合信息(帧间appearance就是一个物体在两帧的对应位置的外观信息的融合。举例子来说,生成一个人在中间帧的外观即需要第一帧对应的外观特征也需要第二帧对应的外观特征)。这里之所以叫做appearance其实是参考了视频理解方向工作的叫法,把视频的特征分为appearance和motion(可以参考原文的相关工作)。
- 我们主要贡献并不是定义出了外观信息,而是可以用统一的模块同时提取帧间外观信息和运动信息。
现有的视频帧插值(VFI)方法大致可以分为两类:混合方法(mixed extraction)和感知运动方法(squential extraction)。【导致了表征的模糊性和低效率(lead to representation ambiguity and low efficiency)】
- 混合方法直接将输入相邻的帧连接起来,然后输入一个由连续相似模块组成的主干网络,以生成具有混合运动和外观信息的特征(但没有明确的运动表示)。
这种方法在如何获得中间帧方面可以进一步细分为直接生成方法(directly-generated methods,直接从输入帧端到端生成中间帧)和基于核的方法(kernel-based methods,通过学习核并在输入帧上执行局部卷积来生成插值帧)。
缺点在于:①要求提取模块有精心的设计和高容量(an elaborate design and high capacity in the extractor module),因为它需要同时处理运动和外观信息。② 缺乏明确的运动信息也导致了任意时间步长插值的局限性(limitations for arbitrary-timestep interpolation),难以匹配帧间信息,导致图像模糊和伪影(blur and artifacts)。
- 另一类方法是设计单独的模块来提取运动和外观信息,显式地模拟两帧之间的运动(通常由光流表示),以帮助对齐输入帧的外观信息到中间帧。
有①帧间运动以进行像素级对齐 ②使用上下文特征的合成网络(contextual features)来细化对齐的中间帧 ③设计了单独的模块来显式建模运动和合成外观
缺点在于:① 需要额外的模块提取运动信息(如cost volume,成本反映了它们匹配的可能性)和外观信息,导致于高计算开销。② 从单一帧提取外观特征无法捕捉到同一区域在不同帧之间的外观信息对应关系 ③系统复杂性的增加使得它在实际中的应用变得不现实
⇒ ls there a module capable of explicitly extracting both the motion and appearance features simultaneously?
工作的构思(创新点)
- 利用帧间注意力:作者提出利用帧间注意力(inter-frame attention)来同时提取运动和外观信息,这是在视频帧插值任务中较少探索的。通过这种方式,可以在不丢失细粒度信息的情况下,克服高分辨率输入下帧间注意力的开销瓶颈。
With single inter-frame attention we are able to enhance the appearance features between consecutive frames and acquire motion features at the same time by reusing the attention maps.
patch in current frame → query
its temporal neighbors → keys and values
attention map → temporal correlation
- 混合CNN和Transformer框架:作者采用了一个混合卷积神经网络(CNN)和Transformer的框架。首先使用CNN提取高分辨率的低级特征,然后使用装备了帧间注意力的Transformer块来提取低分辨率的运动特征和帧间外观特征。这种结构可以有效地提取运动和外观特征,同时保持了性能和效率之间的良好平衡(克服高分辨率输入时帧间注意力的开销瓶颈)。(without losing fine-grained information)
- 视觉比较:作者还提供了他们的方法与其他VFI方法在中间帧和多帧生成方面的视觉比较。结果显示,与其他方法相比,他们的模型在大运动情况下能够更好地估计对象在中间帧的对应位置,并且更好地保持了纹理信息。
技术方案
Extract Motion and Appearance Information
Our motivation for using inter-frame lies in its ability to naturally model inter-frame motion and transfer appearance information at the same time.
与transformer中的QKV的处理相类似
B是 coordinate map,有两位组成,表示像素点的相对位置((-1,-1) in the top-left and (1,1) in the bottom-right);此外,由于是timestep-invariant,故可以直接在前xt来表示中间的某帧
此外,在Transformer blocks做的改进还有:①保持了不同帧的时空结构(maintain the spatial-temporal structure)②用深度卷积(depth-wise convolution,每个输入通道被单独卷积,保留图像的空间信息)替换了MLP中的位置编码替换了原来的位置编码
Overall Pipeline
- 【粗提取特征】使用分层卷积(hierarchical convolutional layers)作为低级特征提取器来生成多尺度的单帧外观特征
- 【增加细粒度特征】提出使用多尺度扩张卷积(multi-scale dilated convolution)对于形状为的低级特征,使用步长为和扩张范围从1到的扩张卷积(dilated convolutions)。最后用一个线性层将1、2的特征融合,得到得到第i帧的跨尺度外观特征.
- 【MAF提取】将特征C送入包含帧间注意力的Transformer块组成的分层运动-外观特征提取器,得到和。
- 【初步得到图像】将M和A输入RIFE中得到双向光流(bidirectional optical flow)和掩码;实践中,改变RIFE中卷积层个数11→3,通过两遍PixelShuffle得到4倍的分辨率,其中也涉及到了残差的应用、双线性采样
之后,使用下面的公式,将生成出来,是向后变形(backward warp operation),⊙代表哈达玛积(Hadamard product)
- 【精炼外观】采用了简化的U-Net来精炼使用F和O得到的变形结果,区别在于在特定阶段引入了获取的低级特征L和帧间增强的外观特征A
实验结果(略)
消融实验分析
- 关于IFA的消融:为了验证利用IFA提取两种信息的设计是有效的,我们试过将IFA变成利用自注意力机制对每一帧单独提取外观信息(SFA)和两帧混合提取特征(Mixed)。如图10,利用IFA提取外观特征的方式相比于SFA和Mixed的范式在性能上提升巨大,这验证了IFA的有效性。同时,相比与串行提取的范式(SFA提取外观特征+BCV提取运动特征),利用IFA同时提取两种特征在需要更小计算开销的同时具备更好的性能。
- 关于运动特征的消融:为了进一步验证IFA提取的运动信息对于运动关系的建模是有效的,我们用单纯的时间t代替运动特征作为估计任意时刻光流估计的线索。如图11,相比于单纯的时间t,在基本相同的计算开销下,使用IFA提取的运动特征来指引任意时刻的光流估计的整体性能要明显更优,这充分证明其有效性。
可视化效果
总结与展望
- 尽管混合CNN和Transformer的设计可以减轻计算开销,但它也限制了在的高分辨率外观特征下利用IFA进行运动信息的提取。
- 该方法的输入仅限于两个连续的帧,这导致无法利用来自多个连续帧的信息,需要在在不引入过多计算开销的情况下将我们的方法扩展到多帧的输入。
- 同时,因为我们提出的能够同时提取运动和外观信息的IFA模块对于视频的不同任务都是通用的,我们也将研究如何将帧间注意应用于其他同样需要这两类信息的领域,如动作识别和动作检测。