返回列表 发布新帖

基于DCNN和BiLSTM的单通道视听融合语音分离方法研究

6 0
admin 发表于 2024-12-14 12:21 | 查看全部 阅读模式

文档名:基于DCNN和BiLSTM的单通道视听融合语音分离方法研究
摘要:近年来,随着语音处理及计算机技术的飞速发展,人机语音交互的重要性日益突出.其中,语音分离是将目标语音从混合语音中分离出来的一项重要任务.然而,在著名的"鸡尾酒会"等复杂开放环境下语音的分离远没有达到令人满意的效果.针对现实生活中多说话人交流场景,本文以空洞卷积(DilatedConvolutionsNeuralNetwork,DCNN)和双向长短时记忆(Bi-directionalLongShort-TermMemory,BiLSTM)为网络基础,提出一种视听融合的语音分离(DCNN-BiLSTM)模型.该模型在训练过程中通过音频编号查找与之对应的视觉信息,视觉信息可以将音频聚焦在说话场景中该说话人上,以达到增强语音分离效果.在AVSpeech数据集上进行实验测试,利用PESQ(PerceptualEval-uationofSpeechQuality)、STOI(Short-TimeObjectiveIntelligibility)和SDR(Signal-to-DistortionRatio)指标评价分离效果.研究表明,本文方法比经典的AVSpeech分离方法在语音分离能力上提高了3.37dB.

作者:兰朝凤  王顺博  郭小霞  韩玉兰  康守强Author:LANChao-feng  WANGShun-bo  GUOXiao-xia  HANYu-lan  KANGShou-qiang
作者单位:哈尔滨理工大学测控技术与通信工程学院,黑龙江哈尔滨150080
刊名:电子学报 ISTICEIPKU
Journal:ActaElectronicaSinica
年,卷(期):2023, 51(4)
分类号:TP391.9
关键词:视听融合  空洞卷积  双向长短时记忆网络  单通道  语音分离  
机标分类号:TN911.7F6TP309
在线出版日期:2023年7月6日
基金项目:黑龙江省自然科学基金联合引导项目,国家自然科学基金基于DCNN和BiLSTM的单通道视听融合语音分离方法研究[
期刊论文]  电子学报--2023, 51(4)兰朝凤  王顺博  郭小霞  韩玉兰  康守强近年来,随着语音处理及计算机技术的飞速发展,人机语音交互的重要性日益突出.其中,语音分离是将目标语音从混合语音中分离出来的一项重要任务.然而,在著名的"鸡尾酒会"等复杂开放环境下语音的分离远没有达到令人满意的效...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文

        基于DCNN和BiLSTM的单通道视听融合语音分离方法研究  A Single Channel Audio-Visual Fusion Speech Separation Method Based on DCNN and BiLSTM

基于DCNN和BiLSTM的单通道视听融合语音分离方法研究.pdf
2024-12-14 12:21 上传
文件大小:
2.38 MB
下载次数:
60
高速下载
【温馨提示】 您好!以下是下载说明,请您仔细阅读:
1、推荐使用360安全浏览器访问本站,选择您所需的PDF文档,点击页面下方“本地下载”按钮。
2、耐心等待两秒钟,系统将自动开始下载,本站文件均为高速下载。
3、下载完成后,请查看您浏览器的下载文件夹,找到对应的PDF文件。
4、使用PDF阅读器打开文档,开始阅读学习。
5、使用过程中遇到问题,请联系QQ客服。

本站提供的所有PDF文档、软件、资料等均为网友上传或网络收集,仅供学习和研究使用,不得用于任何商业用途。
本站尊重知识产权,若本站内容侵犯了您的权益,请及时通知我们,我们将尽快予以删除。
  • 手机访问
    微信扫一扫
  • 联系QQ客服
    QQ扫一扫
2022-2025 新资汇 - 参考资料免费下载网站 最近更新浙ICP备2024084428号
关灯 返回顶部
快速回复 返回顶部 返回列表