CN-AVPR
00 分钟
2023-12-1

数据集

CN-Celeb 数据集是一个为语音识别研究设计的大规模、多类型的数据集。以下是其主要特点:
  1. 规模和范围:CN-Celeb 是一个综合性的收集,包含来自1000名中国名人的超过130,000条发言。这个数据集在覆盖广泛的真实世界类型方面独具特色,总共涵盖了11种不同的类型
  1. 音频-视觉组件CN-Celeb-AV数据集版本包含了音频和视觉数据,用于人物识别,这对于同时涉及语音和图像处理领域的研究尤其有价值。它包含了超过419,000条发言,涉及1,136名发言者。
  1. 子集和格式:该数据集分为两个子集:CN-Celeb1和CN-Celeb2。这些子集中的所有音频文件都是单声道编码的,采样频率为16kHz,采样精度为16位
  1. 扩展版本:CN-Celeb 数据集的扩展版本包含了来自3,000名中国名人的超过600,000条发言。这个扩展数据集进一步扩大了其在各种语音识别应用中的范围和实用性
CN-Celeb 数据集特别注意其“实地”收集方法,即数据是从自然的、真实世界的来源收集的,而不是在受控环境中。这使它成为开发和测试在多种多样的真实环境中坚固有效的语音识别技术的宝贵资源。
In this section, we conduct AVPR experiments with two CNCeleb-AV evaluation sets and other two popular datasets: MOBIO [22] and VoxCeleb1 [26]

方法

Speaker verification

ECAPA-TDNN model

We employ the ECAPA-TDNN model [31] in the SpeechBrain toolkit [32] for speaker verification. The model is trained with VoxCeleb1.dev and VoxCeleb2. All the speech data are first preprocessed by VAD and then fed into ECAPA-TDNN to extract speaker embeddings. The cosine similarity is used to score the trials.
训练快速,效果较好
notion image
notion image

Face verification

RetinaFace

InsightFace

System fusion

log-likelihood ratios (LLRs) based

notion image

CLLR-based Caliboration

A CLLR-based calibration routine implemented in the BOSARIS toolkit [36] is used to perform calibration.
CLLR value
CLLR值用作评估校准过程效果的重要标准。一个低的CLLR值表明校准过程效果好,校准后的分数更准确地反映了真实概率。
 

评论
Loading...