基于DCNN和BiLSTM的单通道视听融合语音分离方法研究

admin · 发表于 2024-12-14 12:21

文档名：基于DCNN和BiLSTM的单通道视听融合语音分离方法研究
摘要：近年来,随着语音处理及计算机技术的飞速发展,人机语音交互的重要性日益突出.其中,语音分离是将目标语音从混合语音中分离出来的一项重要任务.然而,在著名的"鸡尾酒会"等复杂开放环境下语音的分离远没有达到令人满意的效果.针对现实生活中多说话人交流场景,本文以空洞卷积(DilatedConvolutionsNeuralNetwork,DCNN)和双向长短时记忆(Bi-directionalLongShort-TermMemory,BiLSTM)为网络基础,提出一种视听融合的语音分离(DCNN-BiLSTM)模型.该模型在训练过程中通过音频编号查找与之对应的视觉信息,视觉信息可以将音频聚焦在说话场景中该说话人上,以达到增强语音分离效果.在AVSpeech数据集上进行实验测试,利用PESQ(PerceptualEval-uationofSpeechQuality)、STOI(Short-TimeObjectiveIntelligibility)和SDR(Signal-to-DistortionRatio)指标评价分离效果.研究表明,本文方法比经典的AVSpeech分离方法在语音分离能力上提高了3.37dB.

作者：兰朝凤  王顺博  郭小霞  韩玉兰  康守强Author：LANChao-feng  WANGShun-bo  GUOXiao-xia  HANYu-lan  KANGShou-qiang
作者单位：哈尔滨理工大学测控技术与通信工程学院,黑龙江哈尔滨150080
刊名：电子学报 ISTICEIPKU
Journal：ActaElectronicaSinica
年，卷(期)：2023, 51(4)
分类号：TP391.9
关键词：视听融合  空洞卷积  双向长短时记忆网络  单通道  语音分离
机标分类号：TN911.7F6TP309
在线出版日期：2023年7月6日
基金项目：黑龙江省自然科学基金联合引导项目，国家自然科学基金基于DCNN和BiLSTM的单通道视听融合语音分离方法研究[
期刊论文]  电子学报--2023, 51(4)兰朝凤  王顺博  郭小霞  韩玉兰  康守强近年来,随着语音处理及计算机技术的飞速发展,人机语音交互的重要性日益突出.其中,语音分离是将目标语音从混合语音中分离出来的一项重要任务.然而,在著名的"鸡尾酒会"等复杂开放环境下语音的分离远没有达到令人满意的效...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文

基于DCNN和BiLSTM的单通道视听融合语音分离方法研究  A Single Channel Audio-Visual Fusion Speech Separation Method Based on DCNN and BiLSTM

基于DCNN和BiLSTM的单通道视听融合语音分离方法研究.pdf

2024-12-14 12:21 上传

基于DCNN和BiLSTM的单通道视听融合语音分离方法研究.pdf

文件大小:: 2.38 MB

下载次数:: 60

高速下载

基于DCNN和BiLSTM的单通道视听融合语音分离方法研究

相关帖子

能源电力

化工

建筑工程

机械

电子信息

医药

科学