Audio-Visual Verification
00 分钟
2024-4-13

Audio-Visual Deep Neural Network for Robust Person Verificatio

  • 使用双模态进行融合识别的优势:
      1. 可以提取更多人物特征(person representation)complementary
        1. Information fromdifferent modalities often has different discriminative abilities under certain circumstances,making thetwomodesofinformation complementary.
          视觉会因为人物留胡子、戴眼镜等变化;听觉会因为说不同语言、语调不同等变化
      1. 可以提高模型的鲁棒性(robustness)对于噪声的抵制
      1. 可以反欺诈(anti-spoofing)双模态难以造假
  • 共设计了三种网络结构,如下:
AVN-F
AVN-F
AVN-E
AVN-E
AVN-J
AVN-J

Feature-level Audio-Visual Network

直接对于分别从raw提取的特征进行融合
notion image
notion image
与传统的直接将voice features (2D) zero-padding之后与image concat之后学习不同
这里将voice feature与image通过卷积mapping到相同的尺寸,在通过ResNet之后的output需要通过zero padded的方式给再进行填充到相同尺寸,之后要通过attention来将其缩放
设置了三种attention block(GAP+attention map重标定,卷积提取特征再attention来关注单模态的quality,只计算attention weight来关注单模态poor condition的情况)
这里使用了strong noise来进行数据增强,重点考虑但有一个模态corrupted的时候,整个模型表现的变化。
notion image
notion image

Embedding-level Audio-Visual Network

一次性地将raw的分别提取好的特征通过网络fusion,输出混合后的特征(不是简单的concat)可以实现(1)简易部署、快速优化+与前面的提取器解耦合
notion image
对于特征也有三种融合策略(首先先用transformer将face&speaker embedding映射到统一维度):
  1. Simple Soft Attention Fusion
    1. 得到两者的embedding fusion attention score之后,计算softmax,根据softmax得到的weight将两者融合得到fusion embedding
  1. Compact Bilinear Pooling Fusion
    1. 本质是未来直接精算二者embedding的outer product,由于现实中计算量相对较大,故使用MCB对于结果进行逼近
  1. Gated Multi-Modal Fusion
    1. 参考GRU的设计原理,增加了gate来控制信息流与信息的fusion
notion image
设计了新的噪声配对方法NDM(noise distribution matching),可以直接对于embedding增强数据,类似于VAE对于input解耦到clean和Gaussian noise(通过对于feature-level的类似加噪方式,对噪声的均值、方差进行估计,但只需要对小部分数据进行采样即可)
notion image

Joint Learned Embeddig Level Audio-Visual Network

采用端到端的方式,从提取embedding开始便是由网络一起提取(extractor为基于Resnet34的block),而非像AVN-E需要提前用预训练的模块进行提取
notion image
分为了speaker & face embedding extractors、fusion model三模块,将他们的损失函数直接相加作为整个模型的损失
notion image

Loss

  • Contrastive Loss With Aggressive Sampling Strategy
    • Positive pairs 是指在对比学习中,包含两个相似或者同类的样本的组合。如果两个样本(比如两个图像或者两段声音)是属于同一个类别或者有高度相似性,它们就会被组成一个positive pair。在训练过程中,模型会尝试将这种pair中的样本推得更近,以此来学习如何识别和强化相似性质的特征。
      Negative pairs 则相反,它们由两个不相似或不属于同一类别的样本组成。例如,一个图像和一个完全不同类别的图像,或者声音等。对于这些pair,训练模型的目标是尽可能地拉远它们,帮助模型学习区分不同类别或特征的能力。
      notion image
      个positive pair和个negative pair,通过调整的值,来使得模型关注于“hard” negative pairs,最后只关注于最难的negative pairs,得到的损失如下:
      notion image
  • Additive Angular Margin Loss
    • AAM loss是一种在特征空间中强制使得同一类别的样本更加紧密,而不同类别的样本更加分散的方法。在输出和权重矩阵中的每一列(代表一个类别的中心)的角度定义了样本到类别中心的相似度。
      AMM loss在此基础上,在softmax中加入角度边界,来调整角度的影响力,进而对其分布进行区分
      notion image

Experiments

  • 数据集和预处理
      1. VoxCeleb1 和 VoxCeleb2:
          • 这两个数据集被广泛用于声音特征和人脸图像的提取与验证。
          • VoxCeleb1 数据集用于评估,包括三种官方的试验列表:Vox1_O, Vox1_E 和 Vox1_H,分别代表不同难度级别的测试配置。
      1. 预处理:
          • 声音数据: 使用 Kaldi 工具包提取40维的Fbank特征,进行语音活动检测和特征均值处理。
          • 视觉数据: 从视频数据中每秒提取一帧图像,使用MTCNN进行人脸定位和标准化处理,以确保输入数据的一致性。
  • 评估和增强
      1. 噪声评估集构建:
          • 使用 VoxCeleb1 数据集构建了一个噪声评估集,以模拟现实环境中的各种干扰和噪声条件。
          • 这包括通过添加模糊和其他视觉噪声来模拟复杂环境中的视觉数据,以及使用 Musan 数据集来添加背景音乐、演讲和噪声等音频干扰。
      1. 数据增强:
          • 采用多模态数据增强策略,包括在特征级和嵌入级别上的增强,以提高模型对噪声的鲁棒性。
          • 特征级增强通过直接在原始音视频数据上添加噪声实现,而嵌入级增强则通过噪声分布匹配(NDM)策略在嵌入空间中进行。
  • 实验设置
    • 所有系统均在标准的 VoxCeleb1 数据集上进行评估,利用多模态信息实现显著的性能提升。
    • 使用复杂的评估设置测试系统的鲁棒性,包括在有噪声的环境下进行测试以模拟实际应用场景。

Seeing Voices and Hearing Faces: Cross-modal biometric matching

本文的任务在于给出声音,让其与识别是哪张人脸发出来的(就是所谓的see voice & hear face,cross-model biometric matching,human perception study),而不是之前所研究的,从face和voice来两重验证。这里就是,input一段声音和两张照片,output是两张照片中的谁发出来的
同时,使用了(1)dynamic(视频信息可用,音频不来自视频)(2)static(只有单个静止图像)的两种测试方式进行测试(3)N-way分类:将人脸扩展到任意数量
之前的工作是用全身的(full-body image)与声音进行配对,本文所使用的仅仅是face上的特征

Model

  • input
    • voice:对于3s的speech生成spectrograms
    • face:RGB face
    • video:基于dual stream architecture来提取
      • notion image
        具体来说有如下提取方式:
      • RGB:将每个视频看作一组独立的RGB,stride=6抽样
      • SDI:面部轨迹计算一个动态图像
      • MDI:面部轨迹中抽象出来10个动态图像,使用temporal pooling来聚合信息
      • RGB+SDI融合、RGB+MDI融合
      • notion image
notion image
  • Static Architecture
    • 使用VGG-M结构直接提取voice和face的特征,concat成3072维度的特征,之后softmax
  • Dynamic-Fusion Architecture
    • 使用dual stream architecture结合RGB和temporal的特征来做动作识别,通过三个子网分别提取特征再融合
      notion image
  • N-way Classification Architecture
    • 为了使得整个过程是inductive的,每次都独立的拼接face stream(类似于RNN),再增加mean pooling,使得stream具有上下文感知

Experiments

notion image
  • dataset
    • 使用VGGFACE、VoxCeleb的重叠数据来获取数据集
    • 通过维基百科得到对应的gender、nationality(US only)、age group
  • baseline
    • 使用Amazon Mechanical Turk (AMT)来做human baseline,来与其进行对比
  • metrix
    • Identification Accuracy
      • notion image
    • Marginal Accuracy
      • notion image

评论
Loading...