CODD
00 分钟
2024-5-8

Temporally Consistent Online Depth Estimation in Dynamic Scenes, WACV 2022

工作出发点/动机

现有方法的缺点

主要是在于OnlineDynamic
Online体现在只能通过本帧之前的帧对于本帧的预测进行调整
In an online setting, this process is further aggravated because only past frames are available.
Dynamic体现在物体和相机的运动是同时发生的
Stabilizing depth temporally in dynamic scenes is challenging due to concurrent object and camera motion.
However, in a dynamic environment with moving and deforming objects, multi-view constraints do not hold. Even if cross-frame correspondences are established, independent depth estimates for corresponding points cannot simply be fused.
  1. 当前的深度估计技术在时间上的一致性很差。
  1. 在在线设置中,只有过去的帧是可用的,这进一步加剧了问题。
  1. 由于物体和摄像机的并发运动(concurrent object and camera motion),动态场景中的深度稳定性是具有挑战性的。
  1. 现有的专注于深度估计的时间一致性的方法通常假设场景是静态的或遮挡移动的物体(moving objects),这限制了它们在动态环境中的适用性。
  1. 一些方法,如卡尔曼滤波器(Kalman filter),假设高斯测量误差(Gaussian measurement error),这在帧之间有遮挡(occlusion)和去遮挡(de-occlusion)的场景中经常失败。

缺点出现的原因

  1. 大多数现有方法专注于逐帧精度(per-frame accuracy),不考虑时间信息或试图保持时间一致性(temporal consistency)。
  1. 在有移动和变形物体的动态环境中,多视图约束(multi-view constraints)不成立,使得保持时间一致性变得具有挑战性。
  1. 许多现有的方法不提供帧之间的明确推理,特别是在在线设置中。
  1. 单目深度估计的尺度模糊性导致重点放在产生具有一致尺度的估计上,而不是减少度量深度估计中的帧间抖动(inter-frame jitter in metric depth estimation)。

工作的构思/创新点

notion image
  • 发现AR中研究不足的问题:从立体图像中估计深度时的时间一致性。
  • 我们提出了一个通用的框架CODD,它建立在逐帧立体深度网络上,以提高时间稳定性。
  • 我们在多种数据集上进行实验,以证明CODD在不牺牲逐帧准确性的情况下具有有利的时间性能。
 
  1. 时间一致性: CODD通过新颖的运动和融合网络增强逐帧立体网络,以提高时间深度一致性。
  1. 处理动态: 运动网络通过预测每像素SE3变换并对齐观测值来考虑动态。
  1. 聚合信息: 融合网络通过聚合当前和过去的估计来提高时间深度一致性。
  1. 每像素SE3变换: 这允许将先前的估计与当前帧对齐,适应场景中的动态。
  1. 可微渲染: 用于将先前的内存状态投影到当前帧,确保对齐和一致性。

技术方案的解读

notion image
CODD主要包含三个子网络:Stereo(从stereo video中提取语义、视差特征),Motion(将过去的帧与现在的进行对齐,并获得新的特征)、Fusion(通过融合特征得到时序稳定的depth)
  • The objective of the stereo network is to extract an initial estimate of disparity and semantic feature map on a perframe basis.
  • The motion network aligns the previous memory state with that of the current frame.
  • The objective of the fusion network (Fig. 3b) is to promote temporal consistency by aggregating the disparities of the motion and stereo memory states.

Stereo Network

notion image
输入是两段RGB的视频(stereo images),一段代表左眼的视角,另一段代表右眼的视角
使用的是改良过后的 HITNet(CVPR2021, Hitnet: Hierarchical iterative tile refinement network for real-time stereo matching.)as per-frame stereo network to extract disparity and features on a per-frame basis【HITNet中只是删除视差>192px的点,CODD中是删除了具有极端场景流(>210像素)和视差(<1像素或>210像素)的像素。这些被删除的像素对应于模拟过程中不切实际的快速、远或近的物体,这些物体在我们的目标应用中(如增强现实)不被考虑

Motion Network

notion image
基于RAFT3D(CVPR2021, Raft-3d: Scene flow using rigidmotion embeddings.)进行网络构建,区别在于RAFT3D使用ResNet50作为context extractor,本文使用类似于HRNet(trans2020, Deep high-resolution representation learning for visual recognition)的结构来处理,减少了80%的参数量
CODD的context extractor架构图
CODD的context extractor架构图
<context extractor> → semantic information <feature extractor> → cross-frame correspondence matching
⇒grouping pixels
 
①context feature ②correlation information ③estimated transformation ④corresponding scene flow → <GRU> → correct the flow → [Gauss-Newton (GN) Optimization steps] → update based on residual error(T is SE3[Euclidean transformation, rotation + move])
residual error计算方法
residual error计算方法
notion image

Fusion Network

notion image
分别计算S和M中的视差,设置(fliter outlier)与(temporary)
notion image
确定重置和融合权重的方式:
  1. disparity confidence: 计算左右特征的 1 distance,并±1从而收集局部置信度信息,形成3通道的confidence(-1,0,1)
  1. local smoothness: 使用self-correlation从而平滑处理,解决“只有左图像可见而右图像不可见”的问题
  1. inter-frame disagreement: 使用cross-correlation评估跨帧的视差和外观相似性,减轻“运动预测不准确”的问题
  1. flow magnitude and confidence and visibility mask:解决帧间运动很大的问题以及识别无效区域
notion image

实验结果

标准数据集

notion image
TartanAir
一个模拟无人机在各种场景中的运动的合成数据集。 包含立体RGB、depth、分割、光流、相机位姿、LiDAR点云
- 15个场景(219,434张图片)用于训练 - 1个场景(6,607张图片)用于验证 - 1个场景(5,915张图片)用于测试
用于训练、验证和测试。
KITTI Depth
包含从LiDAR获取深度信息的真实世界驾驶场景。 包括RGB图像、depth
- 57个场景(38,331张图片)用于训练 - 1个场景(1,100张图片)用于验证 - 13个场景(3,426张图片)用于测试
用于训练、验证和测试。从另一个在KITTI 2015上训练的光流网络中推断出伪真实值信息。
KITTI 2015
KITTI Depth的子集,带有时间图像对。提供真实的光流信息。 包括RGB图像对、光流信息
- 160对图像用于训练 - 20对图像用于验证 - 20对图像用于测试
用于训练、验证和测试。鉴于数据集的规模较小,进行了五折交叉验证实验。

评价标准

notion image
notion image
TEPE (Temporal End-Point-Error)
TEPE反映了在两个时间点之间预测的深度运动与地面真实深度运动之间的绝对误差。TEPE通常与地面真实的幅度成正比,因此更好地反映了具有大运动的像素的一致性。
notion image
notion image
TEPEr (Relative Temporal End-Point-Error)
TEPEr 反映了预测的深度运动与地面真实深度运动之间的相对误差。由于1/ϵ的权重,TEPEr 更好地捕获了静态像素的一致性。
notion image
EPE (End-Point-Error)
EPE 是每像素的视差误差。 用于评估模型在每个像素上的视差预测的准确性。
阈值指标(Threshold Metric)
notion image

Baseline&SOTA

notion image
notion image
  1. PSMNet (Pyramid Stereo Matching Network) [Jia-Ren Chang and Yong-Sheng Chen, 2018]:
      • 发表会议/年代: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018.
      • 简要介绍: PSMNet (Pyramid Stereo Matching Network) 是一种基于深度学习的立体匹配网络。它使用了多尺度的3D卷积来捕捉不同尺度的上下文信息。这种方法在其发布时代表了立体匹配领域的先进技术。
  1. SGM (Semi-Global Matching) [Heiko Hirschmuller, 2007]:
      • 发表会议/年代: IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007.
      • 简要介绍: SGM是一种基于代价聚合的立体匹配方法。它通过在多个方向上累积匹配代价来考虑像素之间的空间关系,从而提高匹配的准确性。这种方法在其发布时代表了立体匹配领域的先进技术。
  1. Revisiting Stereo Depth Estimation with Transformers [Zhaoshuo Li et al., 2021]:
      • 发表会议/年代: Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021.
      • 简要介绍: 这篇文章从序列到序列的角度重新审视立体深度估计,并使用了变压器(Transformers)这种先进的深度学习结构。这种方法可能提供了一种新的、更有效的方式来处理立体匹配问题,利用了变压器在处理序列数据上的强大能力。
  1. HITNet (Hierarchical Iterative Tile Refinement Network) [Vladimir Tankovich et al., 2021]:
      • 发表会议/年代: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021.
      • 简要介绍: HITNet 是一种为实时立体匹配设计的深度学习网络。该网络采用了分层的迭代瓦片细化策略,通过在多个分辨率上进行迭代细化来提高匹配的准确性。HITNet 的目标是在保持高精度的同时实现实时性能,这使其在实时应用中非常有用。
  1. Kalman filter [13]
      • 发表会议/年代: 卡尔曼滤波器是一种经典的滤波方法,早在1960年代就已经存在。
      • 简要介绍: 卡尔曼滤波器是一种递归的滤波方法,用于估计线性动态系统的状态。在立体匹配和深度估计的上下文中,它可能被用于时间序列数据的滤波,以提高深度估计的稳定性和准确性。
      • 卡尔曼滤波器利用目标的动态信息,去掉噪声影响,获取目标此刻好的位置估计(即滤波过程),将来的位置估计(即预测过程),也可以是过去位置估计的(即插值平滑过程)。
        • notion image

核心结论分析

优于Kalman但不是很显著
优于Kalman但不是很显著

消融实验分析

  1. Reset weights
    1. 探讨是否需要额外的重置权重,理论上只要就好,因为它可以通过估计极端值(例如0或1)来拒绝异常值,结果发现reset可以提高性能。
      notion image
  1. Fusion input cues
    1. 除了视差置信度、自相关和交叉相关外,我们还逐步向融合网络中添加流置信度/幅度(+FL)、可见性掩码(+V)和语义特征图(+SM)。随着额外输入的增加,指标略有提高,尤其是对于TEPE。
  1. Training sequence length
    1. 默认情况下,我们使用两帧的序列进行训练,其中第二帧将第一帧的立体输出作为输入。但在推理过程中,前面的输出来自融合网络。因此,为了更好地近似推理过程,我们进一步将序列长度扩展到三和四。融合网络从增加的训练序列长度中持续受益。但这按比例延长了训练时间。
  1. Empirical Best Case
    1. 完美的运动导致TEPEr大幅减少,而完美的融合导致TEPE大幅减少。在这两种情况下,EPE也都有所改善。【是之后改进的方向之一】

可视化效果

notion image

总结与展望

论文贡献点

  • 提出了一个名为CODD(Consistent Online Dynamic Depth)的框架,该框架生成具有时间一致性的深度预测。为了解决帧间运动的问题,该模型使用了一个新颖的运动网络来适应动态,并使用了一个新颖的融合网络来结合当前和先前的预测。
  • 通过广泛的消融研究,展示了CODD的各个组件的重要性,并进一步实证地展示了所提议设置的性能上限,这可能会激励未来的研究。

论文缺陷

  • 当前的解决方案在时间一致性方面表现不佳。尽管CODD在各种数据集上均优于竞争方法,但我们认识到CODD与第5.4.2节中的经验最佳情况之间仍然存在差距。
  • CODD不能在当前和先前的预测中都存在错误的情况下纠正错误。这意味着,如果两个连续的帧都有不准确的深度预测,CODD可能无法完全纠正这些错误。

改进思路

  • 针对第一个缺陷:可以考虑进一步研究和改进运动和融合网络,以提高时间一致性。此外,可以考虑引入更多的时间信息或使用更复杂的时间模型来捕获深度预测的时间变化。
  • 针对第二个缺陷:可以考虑引入一个纠错机制或反馈循环,该机制可以检测并纠正连续帧之间的不一致性。此外,可以考虑使用更强大的深度估计模型或结合多个模型的预测来提高每帧的准确性。
notion image

评论
Loading...