返回列表 发布新帖

基于全局与序列混合变分Transformer的多样化图像描述生成方法

14 0
admin 发表于 2024-12-14 12:08 | 查看全部 阅读模式

文档名:基于全局与序列混合变分Transformer的多样化图像描述生成方法
摘要:多样化图像描述生成已成为图像描述领域研究热点.然而,现有方法忽视了全局和序列隐向量之间的依赖关系,严重限制了图像描述性能的提升.针对该问题,本文提出了基于混合变分Transformer的多样化图像描述生成框架.具体地,首先构建全局与序列混合条件变分自编码模型,解决全局与序列隐向量之间依赖关系表示的问题.其次,通过最大化条件似然推导混合模型的变分证据下界,解决多样化图像描述目标函数设计问题.最后,无缝融合Transformer和混合变分自编码模型,通过联合优化提升多样化图像描述的泛化性能.在MSCOCO数据集上实验结果表明,与当前最优基准方法相比,在随机生成20和100个描述语句时,多样性指标m-BLEU(mutualoverlap-BiLingualEvaluationUnderstudy)分别提升了4.2%和4.7%,同时准确性指标CIDEr(Consensus-basedImageDescriptionEvaluation)分别提升了4.4%和15.2%.

Abstract:Diverseimagecaptioninghasbecomearesearchhotspotinthefieldofimagedescription.Existingmeth-odsgenerallyignorethedependencyrelationshipbetweenglobalandsequentiallatentvectors,whichseriouslylimitstheperformanceimprovement.Toaddressthisproblem,thispaperproposesahybridvariationalTransformerbaseddiverseim-agecaptioningframework.Firstly,weconstructahybridconditionalvariationalautoencodertoeffectivelymodelthedepen-dencybetweenglobalandsequentiallatentvectors.Secondly,theevidencelowerboundisderivedbymaximizingthecondi-tionallikelihoodofthehybridautoencoder,whichservesastheobjectivefunctionfordiverseimagecaptioning.Finally,weseamlesslycombinetheTransformermodelwiththehybridconditionalvariationalautoencoder,whichcanbejointlyopti-mizedtoimprovethegeneralizationperformanceofdiverseimagecaptioning.TheexperimentalresultsonMSCOCOdatas-etshowthatcomparedwiththestate-of-the-artmethods,whenrandomlygenerating20and100captions,thediversitymet-ricm-BLEU(MutualoverlapBilingualEvaluationUnderstudy)hasimprovedby4.2%and4.7%,respectively,whiletheac-curacymetricCIDEr(ConsensusbasedImageDescriptionEvaluation)hasimprovedby4.4%and15.2%,respectively.

作者:刘兵   李穗   刘明明   刘浩 Author:LIUBing   LISui   LIUMing-ming   LIUHao
作者单位:中国矿业大学计算机科学与技术学院,江苏徐州221116;矿山数字化教育部工程研究中心,江苏徐州221116中国矿业大学计算机科学与技术学院,江苏徐州221116
刊名:电子学报 ISTICEIPKU
Journal:ActaElectronicaSinica
年,卷(期):2024, 52(4)
分类号:TP391
关键词:图像理解  图像描述  变分自编码  隐嵌入  多模态学习  生成模型  
Keywords:imageunderstanding  imagecaptioning  variationalautoencoding  latentembedding  multi-modallearn-ing  generativemodel  
机标分类号:TP391.41TN957.52S
在线出版日期:2024年6月26日
基金项目:基于全局与序列混合变分Transformer的多样化图像描述生成方法[
期刊论文]  电子学报--2024, 52(4)刘兵  李穗  刘明明  刘浩多样化图像描述生成已成为图像描述领域研究热点.然而,现有方法忽视了全局和序列隐向量之间的依赖关系,严重限制了图像描述性能的提升.针对该问题,本文提出了基于混合变分Transformer的多样化图像描述生成框架.具体地,首...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文

        基于全局与序列混合变分Transformer的多样化图像描述生成方法  Diverse Image Captioning Based on Hybrid Global and Sequential Variational Transformer

基于全局与序列混合变分Transformer的多样化图像描述生成方法.pdf
2024-12-14 12:08 上传
文件大小:
6.12 MB
下载次数:
60
高速下载
【温馨提示】 您好!以下是下载说明,请您仔细阅读:
1、推荐使用360安全浏览器访问本站,选择您所需的PDF文档,点击页面下方“本地下载”按钮。
2、耐心等待两秒钟,系统将自动开始下载,本站文件均为高速下载。
3、下载完成后,请查看您浏览器的下载文件夹,找到对应的PDF文件。
4、使用PDF阅读器打开文档,开始阅读学习。
5、使用过程中遇到问题,请联系QQ客服。

本站提供的所有PDF文档、软件、资料等均为网友上传或网络收集,仅供学习和研究使用,不得用于任何商业用途。
本站尊重知识产权,若本站内容侵犯了您的权益,请及时通知我们,我们将尽快予以删除。
  • 手机访问
    微信扫一扫
  • 联系QQ客服
    QQ扫一扫
2022-2025 新资汇 - 参考资料免费下载网站 最近更新浙ICP备2024084428号-1
关灯 返回顶部
快速回复 返回顶部 返回列表