语音部分整理 | WWD’s Blog

前期调研，发现主流的语音识别框架是SpeechBrain与Kaldi，其中前者更新一些，基于pytorch，便于对其训练策略进行调整，故选用其作为我们的框架

一开始采用ECAPA-TDNN这一主流语音识别框架进行预测，基于speechbrain的框架进行训练、评估，采用Voxceleb数据集进行训练，微调过程中增加了环境噪声进行数据增强，之后采用TIMIT数据集（600个人）以模拟我们采集到的数据，对上面的模型训练进行调整。最终错误率在0.80%。

LibriSpeech是由Vassil Panayotov在Daniel Povey的协助下编写的大约1000小时的16kHz阅读英语语音的语料库。数据来自LibriVox项目的有声读物，并且经过了仔细的分割和对齐。可以在kaldi-asr.org上获得经过此数据集训练的声学模型，可以在http://www.openslr.org/11/找到适合评估的语言模型。

VoxCeleb 数据集从 YouTube 上公开可用的视频中收集而来。它包含数千个名人的讲话片段，这些片段涵盖了各种不同的背景噪音和现实世界的语音环境。VoxCeleb 包括两个主要版本 - VoxCeleb1 和 VoxCeleb2。VoxCeleb1 包含超过 100,000 段录音，来自 1,251 名不同的名人。VoxCeleb2 是一个更大的数据集，包含超过 1,000,000 段录音，来自 6,112 名不同的名人。