- 前期调研,发现主流的语音识别框架是SpeechBrain与Kaldi,其中前者更新一些,基于pytorch,便于对其训练策略进行调整,故选用其作为我们的框架
- 一开始采用ECAPA-TDNN这一主流语音识别框架进行预测,基于speechbrain的框架进行训练、评估,采用Voxceleb数据集进行训练,微调过程中增加了环境噪声进行数据增强,之后采用TIMIT数据集(600个人)以模拟我们采集到的数据,对上面的模型训练进行调整。最终错误率在0.80%。
LibriSpeech是由Vassil Panayotov在Daniel Povey的协助下编写的大约1000小时的16kHz阅读英语语音的语料库。数据来自LibriVox项目的有声读物,并且经过了仔细的分割和对齐。可以在kaldi-asr.org上获得经过此数据集训练的声学模型,可以在http://www.openslr.org/11/找到适合评估的语言模型。
VoxCeleb 数据集从 YouTube 上公开可用的视频中收集而来。它包含数千个名人的讲话片段,这些片段涵盖了各种不同的背景噪音和现实世界的语音环境。VoxCeleb 包括两个主要版本 - VoxCeleb1 和 VoxCeleb2。VoxCeleb1 包含超过 100,000 段录音,来自 1,251 名不同的名人。VoxCeleb2 是一个更大的数据集,包含超过 1,000,000 段录音,来自 6,112 名不同的名人。
- 之后参考Semi-Orthogonal Low-Rank Matrix Factorization for Deep Neural Networks的思路,对于ECAPA-TDNN模型的中间模块进行了修改,提升模型的训练速度
- 增加了FC的中间层,减小参数量
- 增加跳层连接,防止梯度消失
- 增加了dropout,防止过拟合
这个部分缺了一张训练的图
关于特征融合部分:
我们实现了给出一个speaker identification,即输入一段音频,给出其匹配的各个人的概率
这里的score表示置信度,之后使用CLLR-based calibration routine将score映射到新的score,从而方便于之后的与视觉信息的score运算。