文档名:基于改进DFSMN的非特定人语音识别模型
摘要:深度前馈序列记忆网络(DeepFeedforwardSequentialMemoryNetwork,DFSMN)是一种识别准确率较高且在非特定人语音识别领域得到良好应用的声学模型,但存在参数冗余、模型训练困难的情况.针对此问题,提出一种基于改进DFSMN的非特定人语音识别模型.该模型改进了DFSMN记忆模块大小和模块之间的连接方式,并结合连接时序分类(ConnectionistTemporalClassification,CTC)端到端语音识别框架.实验结果表明,在相同条件下,该改进模型的参数量较之前减少了约1/10,在不同数据集上与几种常见语音识别模型相比,其语音识别字符错误率均最低,在识别准确率和模型训练效率方面具有一定的优越性.
Abstract:DeepFeedforwardSequentialMemoryNetwork(DFSMN)isanacousticmodelwithhighrecognitionaccuracyandhasbeenwellappliedinthefieldofnon-specificspeechrecognition.However,thismodelsuffersfromparameterredundancyanddifficultyintraining.Inresponsetothisissue,thisarticleproposesanon-specificpersonspeechrecognitionmodelbasedonimprovedDFSMN.ItimprovestheDFSMNmemoryunitstructureandtheconnectionbetweenunits.Meanwhile,itcombineswiththeConnectionTemporalClassification(CTC)end-to-endspeechrecognitionframework.Theexperimentalresultsshowthatunderthesameconditions,thenumberofparametersoftheimprovedmodelhasdecreasedbyabout1/10comparedtobefore.Atthesametime,comparedwithseveralcommonspeechrecognitionmodelsondifferentdatasets,itsspeechrecognitionworderrorrateisthelowest.Ithascertainadvantagesinrecognitionaccuracyandmodeltrainingefficiency.
作者:王世刚 严瑾Author:WANGShigang YANJin
作者单位:广西科技大学自动化学院,广西柳州545616
刊名:电声技术
Journal:AudioEngineering
年,卷(期):2023, 47(12)
分类号:TN912.34
关键词:语音识别 深度前馈序列记忆网络(DFSMN) 非特定人 连接时序分类(CTC)
Keywords:speechrecognition DeepFeedforwardSequentialMemoryNetwork(DFSMN) non-specificperson ConnectionTemporalClassification(CTC)
机标分类号:TP391.41TN912.34P444
在线出版日期:2024年2月29日
基金项目:基于改进DFSMN的非特定人语音识别模型[
期刊论文] 电声技术--2023, 47(12)王世刚 严瑾深度前馈序列记忆网络(DeepFeedforwardSequentialMemoryNetwork,DFSMN)是一种识别准确率较高且在非特定人语音识别领域得到良好应用的声学模型,但存在参数冗余、模型训练困难的情况.针对此问题,提出一种基于改进DFS...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
基于改进DFSMN的非特定人语音识别模型 A Non-Specific Person Speech Recognition Model Based on Improved DFSMN
基于改进DFSMN的非特定人语音识别模型.pdf
- 文件大小:
- 624.97 KB
- 下载次数:
- 60
-
高速下载
|