文档名:基于DCNN和BiLSTM的单通道视听融合语音分离方法研究
摘要:近年来,随着语音处理及计算机技术的飞速发展,人机语音交互的重要性日益突出.其中,语音分离是将目标语音从混合语音中分离出来的一项重要任务.然而,在著名的"鸡尾酒会"等复杂开放环境下语音的分离远没有达到令人满意的效果.针对现实生活中多说话人交流场景,本文以空洞卷积(DilatedConvolutionsNeuralNetwork,DCNN)和双向长短时记忆(Bi-directionalLongShort-TermMemory,BiLSTM)为网络基础,提出一种视听融合的语音分离(DCNN-BiLSTM)模型.该模型在训练过程中通过音频编号查找与之对应的视觉信息,视觉信息可以将音频聚焦在说话场景中该说话人上,以达到增强语音分离效果.在AVSpeech数据集上进行实验测试,利用PESQ(PerceptualEval-uationofSpeechQuality)、STOI(Short-TimeObjectiveIntelligibility)和SDR(Signal-to-DistortionRatio)指标评价分离效果.研究表明,本文方法比经典的AVSpeech分离方法在语音分离能力上提高了3.37dB.
作者:兰朝凤 王顺博 郭小霞 韩玉兰 康守强Author:LANChao-feng WANGShun-bo GUOXiao-xia HANYu-lan KANGShou-qiang
作者单位:哈尔滨理工大学测控技术与通信工程学院,黑龙江哈尔滨150080
刊名:电子学报 ISTICEIPKU
Journal:ActaElectronicaSinica
年,卷(期):2023, 51(4)
分类号:TP391.9
关键词:视听融合 空洞卷积 双向长短时记忆网络 单通道 语音分离
机标分类号:TN911.7F6TP309
在线出版日期:2023年7月6日
基金项目:黑龙江省自然科学基金联合引导项目,国家自然科学基金基于DCNN和BiLSTM的单通道视听融合语音分离方法研究[
期刊论文] 电子学报--2023, 51(4)兰朝凤 王顺博 郭小霞 韩玉兰 康守强近年来,随着语音处理及计算机技术的飞速发展,人机语音交互的重要性日益突出.其中,语音分离是将目标语音从混合语音中分离出来的一项重要任务.然而,在著名的"鸡尾酒会"等复杂开放环境下语音的分离远没有达到令人满意的效...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
基于DCNN和BiLSTM的单通道视听融合语音分离方法研究 A Single Channel Audio-Visual Fusion Speech Separation Method Based on DCNN and BiLSTM
基于DCNN和BiLSTM的单通道视听融合语音分离方法研究.pdf
- 文件大小:
- 2.38 MB
- 下载次数:
- 60
-
高速下载
|
|