基于双分支融合和时频压缩激励的鲁棒语音关键词识别
现实生活中的噪声会对语音时域和频域信息产生干扰,导致语音关键词识别模型在噪声环境下准确率下降。针对此问题,提出了双分支融合单元,其中时域分支与频域分支以并行的方式提取时域特征和频域特征,降低了串行堆叠时域卷积和频域卷积所带来的信息损耗;随后通过交叉融合的方式加强模型对时频信息的感知,进一步增强了模型特征表达能力。同时提出了时频压缩激励模块,通过对时域与频域中信息的重要性分布建模,可以为模型提供选择性关注有价值片段的能力,进一步提高了模型鲁棒性。在Google Command v2-12数据集上,相比于对比模型,所提模型在不同信噪比的测试中取得了更高的识别准确率,且参数量更低;对于训练阶段未涵盖的信噪比条件,所提模型在测试中展现出更高的泛化性。实验结果表明,本文模型在识别准确率和参数量方面更具优势,具有更好的噪声鲁棒性。
计算机应用研究
2024年12期
立即查看 >
图书推荐
相关工具书