文档名:结合金字塔结构和注意力机制的单目深度估计
摘要:单目深度估计是由单幅彩色图像预测出一幅稠密的深度图像.针对目前单目深度估计算法存在边界模糊、上下文信息捕捉能力不足等问题,提出了一种结合金字塔结构和注意力机制的单目深度估计算法.算法采用编码器-解码器的总体框架,其中编码器选用PVTv2网络,目的是利用Transformer网络在建模全局信息方面的优势以获取更充分的全局语义信息;解码器由深度估计主分支和2个金字塔子分支组成.深度估计主分支通过空间和通道注意力机制来自适应地关注编码器和解码器特征间重要的特征区域和特征通道;拉普拉斯金字塔子分支和深度残差金字塔子分支旨在从彩色图像和深度估计主分支深度特征中学习到丰富的局部信息并传递到深度估计主分支,进一步解决单目深度估计中细节缺失、结构混乱等问题.实验结果表明,与先进的算法P3Depth相比,在室内公开数据集NYUDepthV2上,该算法的δ1.25阈值精度提升了1.22%,绝对误差和根均方误差分别降低了5.8%和2.8%;而在室外公开数据集KITTI上,该算法的绝对误差、根均方对数误差和根均方误差分别降低了8.5%,3.9%和0.4%.该算法提升了深度估计精度并得到了良好的视觉呈现效果.
Abstract:Monoculardepthestimationisthepredictionofadensedepthimagefromasinglecolorimage.Amonoculardepthestimationalgorithmcombiningpyramidstructureandattentionmechanismwasproposedtoaddresstheissuesofboundaryambiguityandinsufficientcaptureofcontextualinformationincurrentmonoculardepthestimationalgorithms.Thealgorithmadoptedtheoverallframeworkofencoder-decoder,inwhichtheencoderselectedthePVTv2networktoobtainmoreadequateglobalsemanticinformationbytakingadvantageoftheTransformernetworkinmodelingglobalinformation.Thedecoderconsistedofadepthestimationmainbranchandtwopyramidsub-branches.Thedepthestimationmainbranchadaptivelyfocusedonimportantfeatureregionsandfeaturechannelsbetweentheencoderanddecoderfeaturesthroughspatialandchannelattentionmechanisms.TheLaplacianpyramidsub-branchanddepthresidualpyramidsub-branchaimedtolearnrichlocalinformationfromcolorimagesanddepthestimationmainbranchdepthfeatures,transferringittothedepthestimationmainbranchtoaddresstheproblemsofmissingdetailsandchaoticstructuresinmonoculardepthestimation.ExperimentalresultsdemonstratedthatontheindoorpublicdatasetNYUDepthV2,comparedwiththeadvancedalgorithmP3Depth,theaccuracyofδ1.25thresholdwasincreasedby1.22%,theabsoluteerrorandrootmeansquareerrorweredecreasedby5.8%and2.8%,respectively.OntheoutdoorpublicdatasetKITTI,theabsoluteerror,rootmeansquarelogarithmicerror,androotmeansquareerrorofthealgorithmweredecreasedby8.5%,3.9%,and0.4%,respectively.Thealgorithmimprovedtheaccuracyofdepthestimationandachievedagoodvisualrendering.
作者:李滔 胡婷 武丹丹Author:LITao HUTing WUDandan
作者单位:西华大学电气与电子信息学院,四川成都610039
刊名:图学学报 ISTICPKU
Journal:JournalofGraphics
年,卷(期):2024, 45(3)
分类号:TP391
关键词:深度学习 单目深度估计 金字塔结构 注意力机制 Transformer
Keywords:deeplearning monoculardepthestimation pyramidstructure attentionmechanism Transformer
机标分类号:TP391.41TN911.73TN764
在线出版日期:2024年6月19日
基金项目:结合金字塔结构和注意力机制的单目深度估计[
期刊论文] 图学学报--2024, 45(3)李滔 胡婷 武丹丹单目深度估计是由单幅彩色图像预测出一幅稠密的深度图像.针对目前单目深度估计算法存在边界模糊、上下文信息捕捉能力不足等问题,提出了一种结合金字塔结构和注意力机制的单目深度估计算法.算法采用编码器-解码器的总体...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
结合金字塔结构和注意力机制的单目深度估计 Monocular depth estimation combining pyramid structure and attention mechanism
结合金字塔结构和注意力机制的单目深度估计.pdf
- 文件大小:
- 1.85 MB
- 下载次数:
- 60
-
高速下载
|
|