返回列表 发布新帖

结合金字塔结构和注意力机制的单目深度估计

10 0
admin 发表于 2024-12-14 04:04 | 查看全部 阅读模式

文档名:结合金字塔结构和注意力机制的单目深度估计
摘要:单目深度估计是由单幅彩色图像预测出一幅稠密的深度图像.针对目前单目深度估计算法存在边界模糊、上下文信息捕捉能力不足等问题,提出了一种结合金字塔结构和注意力机制的单目深度估计算法.算法采用编码器-解码器的总体框架,其中编码器选用PVTv2网络,目的是利用Transformer网络在建模全局信息方面的优势以获取更充分的全局语义信息;解码器由深度估计主分支和2个金字塔子分支组成.深度估计主分支通过空间和通道注意力机制来自适应地关注编码器和解码器特征间重要的特征区域和特征通道;拉普拉斯金字塔子分支和深度残差金字塔子分支旨在从彩色图像和深度估计主分支深度特征中学习到丰富的局部信息并传递到深度估计主分支,进一步解决单目深度估计中细节缺失、结构混乱等问题.实验结果表明,与先进的算法P3Depth相比,在室内公开数据集NYUDepthV2上,该算法的δ1.25阈值精度提升了1.22%,绝对误差和根均方误差分别降低了5.8%和2.8%;而在室外公开数据集KITTI上,该算法的绝对误差、根均方对数误差和根均方误差分别降低了8.5%,3.9%和0.4%.该算法提升了深度估计精度并得到了良好的视觉呈现效果.

Abstract:Monoculardepthestimationisthepredictionofadensedepthimagefromasinglecolorimage.Amonoculardepthestimationalgorithmcombiningpyramidstructureandattentionmechanismwasproposedtoaddresstheissuesofboundaryambiguityandinsufficientcaptureofcontextualinformationincurrentmonoculardepthestimationalgorithms.Thealgorithmadoptedtheoverallframeworkofencoder-decoder,inwhichtheencoderselectedthePVTv2networktoobtainmoreadequateglobalsemanticinformationbytakingadvantageoftheTransformernetworkinmodelingglobalinformation.Thedecoderconsistedofadepthestimationmainbranchandtwopyramidsub-branches.Thedepthestimationmainbranchadaptivelyfocusedonimportantfeatureregionsandfeaturechannelsbetweentheencoderanddecoderfeaturesthroughspatialandchannelattentionmechanisms.TheLaplacianpyramidsub-branchanddepthresidualpyramidsub-branchaimedtolearnrichlocalinformationfromcolorimagesanddepthestimationmainbranchdepthfeatures,transferringittothedepthestimationmainbranchtoaddresstheproblemsofmissingdetailsandchaoticstructuresinmonoculardepthestimation.ExperimentalresultsdemonstratedthatontheindoorpublicdatasetNYUDepthV2,comparedwiththeadvancedalgorithmP3Depth,theaccuracyofδ1.25thresholdwasincreasedby1.22%,theabsoluteerrorandrootmeansquareerrorweredecreasedby5.8%and2.8%,respectively.OntheoutdoorpublicdatasetKITTI,theabsoluteerror,rootmeansquarelogarithmicerror,androotmeansquareerrorofthealgorithmweredecreasedby8.5%,3.9%,and0.4%,respectively.Thealgorithmimprovedtheaccuracyofdepthestimationandachievedagoodvisualrendering.

作者:李滔  胡婷  武丹丹Author:LITao  HUTing  WUDandan
作者单位:西华大学电气与电子信息学院,四川成都610039
刊名:图学学报 ISTICPKU
Journal:JournalofGraphics
年,卷(期):2024, 45(3)
分类号:TP391
关键词:深度学习  单目深度估计  金字塔结构  注意力机制  Transformer  
Keywords:deeplearning  monoculardepthestimation  pyramidstructure  attentionmechanism  Transformer  
机标分类号:TP391.41TN911.73TN764
在线出版日期:2024年6月19日
基金项目:结合金字塔结构和注意力机制的单目深度估计[
期刊论文]  图学学报--2024, 45(3)李滔  胡婷  武丹丹单目深度估计是由单幅彩色图像预测出一幅稠密的深度图像.针对目前单目深度估计算法存在边界模糊、上下文信息捕捉能力不足等问题,提出了一种结合金字塔结构和注意力机制的单目深度估计算法.算法采用编码器-解码器的总体...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文

        结合金字塔结构和注意力机制的单目深度估计  Monocular depth estimation combining pyramid structure and attention mechanism

结合金字塔结构和注意力机制的单目深度估计.pdf
2024-12-14 04:04 上传
文件大小:
1.85 MB
下载次数:
60
高速下载
【温馨提示】 您好!以下是下载说明,请您仔细阅读:
1、推荐使用360安全浏览器访问本站,选择您所需的PDF文档,点击页面下方“本地下载”按钮。
2、耐心等待两秒钟,系统将自动开始下载,本站文件均为高速下载。
3、下载完成后,请查看您浏览器的下载文件夹,找到对应的PDF文件。
4、使用PDF阅读器打开文档,开始阅读学习。
5、使用过程中遇到问题,请联系QQ客服。

本站提供的所有PDF文档、软件、资料等均为网友上传或网络收集,仅供学习和研究使用,不得用于任何商业用途。
本站尊重知识产权,若本站内容侵犯了您的权益,请及时通知我们,我们将尽快予以删除。
  • 手机访问
    微信扫一扫
  • 联系QQ客服
    QQ扫一扫
2022-2025 新资汇 - 参考资料免费下载网站 最近更新浙ICP备2024084428号
关灯 返回顶部
快速回复 返回顶部 返回列表