文档名:基于特征空间轨迹信息的语音关键词检测方法
摘要:当前语音关键词检测的主流技术为深度学习,需要大规模标注样本进行训练,难以应用于更普遍的低资源场景.本文提出一种基于音频特征空间轨迹信息的低资源语音关键词检测方法,该方法基于"词是由更小语言单元(音节、音素)的结构化组成,以及语言单元声学特征具有稳定性(统计意义)"的事实,结合物理几何空间定位的原理,构建语音关键词的特征空间表达、时序信息表达和局部区分信息知识.语音关键词检测时,依据语音段的特征空间轨迹信息分层次进行判决,实现了模式信息与统计信息的综合应用.其中语音特征空间是利用丰富的无标注语音样本构建音频特征空间的标识子表达,而语音关键词的特征空间轨迹信息利用少量关键词语音样本构建.多个实验结果表明,本文算法在低资源时(100个样本以下),相比HMM和CRNN有显著优势,10个训练样本时,相比HMM,FRR绝对下降了20.5%,FAR绝对下降了8.7FP/h;而在训练样本量较充分(300个样本及以上)时,与CRNN有大致相当的性能.
Abstract:Thecurrenttechniqueofspokentermdetectionisdominatedbydeeplearning,whichrequireslargeanno-tateddatafortraining,andisdifficulttobeappliedinlimited-datascenarios.Inthispaper,afeaturetrajectorybasedmeth-odofspokentermdetectionisproposedforlimited-datascenarios.Themethodoriginatedfromthefactthatawordisastructuredorganizationofsmallunitssuchassyllableorphonemeandanylanguageunithassteadystatisticalaudiofeature,basedontheprincipleofphysicallocation,featuredistribution,temporalinformationofkeywords,andlocaldistinguishinginformationareconstructedwithspeechexamples.Spokenkeywordsaresearchedwiththefeaturetrajectoryinformationofthedetectedspeechsegmentinhierarchicaldecisionstrategy.Themethodworksonaaudiofeaturespacedefinedbyaiden-tifiersettrainedwithalargeunlabeledspeechdataset.Severalexperimentalresultsshowthattheproposedmethodisevi-dentlysuperiortoHMMandCRNNwhenthetrainingsamplesislessthan100.Forexample,when10samplesareusedfortraining,FRRandFARoftheproposemethodareabsolutelydecreasedby20.5%and8.7FP/hourrespectivelycomparedwithHMM-basedsystem.Ontheotherhand,theproposedmethodachievedthecomparableperformancev.s.CRNN-basedsystemwhenthetrainingsamplesismorethan300.
作者:田颖慧 贺前华 郑若伟 危卓 李艳雄Author:TIANYin-hui HEQian-hua ZHENGRuo-wei WEIZhuo LIYan-xiong
作者单位:华南理工大学,广东广州510641
刊名:电子学报 ISTICEIPKU
Journal:ActaElectronicaSinica
年,卷(期):2023, 51(10)
分类号:TP391.4TP391.9
关键词:语音关键词检测 音频特征空间 特征空间轨迹信息 低资源
Keywords:spokentermdetection audiofeaturespace featurespacetrajectoryinformation limited-datasource
机标分类号:
在线出版日期:2024年1月17日
基金项目:基于特征空间轨迹信息的语音关键词检测方法[
期刊论文] 电子学报--2023, 51(10)田颖慧 贺前华 郑若伟 危卓 李艳雄当前语音关键词检测的主流技术为深度学习,需要大规模标注样本进行训练,难以应用于更普遍的低资源场景.本文提出一种基于音频特征空间轨迹信息的低资源语音关键词检测方法,该方法基于"词是由更小语言单元(音节、音素)的结...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
基于特征空间轨迹信息的语音关键词检测方法 Spoken Term Detection Based on Feature Space Trajectory Information
基于特征空间轨迹信息的语音关键词检测方法.pdf
- 文件大小:
- 12.64 MB
- 下载次数:
- 60
-
高速下载
|