admin 发表于 2024-12-14 14:13

ConvFormer基于Transformer的视觉主干网络


文档名:ConvFormer基于Transformer的视觉主干网络
摘要:针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvForm?er.ConvFormer通过所设计的多尺度混洗自注意力模块(Channel-ShuffleandMulti-Scaleattention,CSMS)和动态相对位置编码模块(DynamicRelativePositionCoding,DRPC)来聚合多尺度像素块间的语义信息,并在前馈网络中引入深度卷积提高网络的局部建模能力.在公开数据集ImageNet-1K,COCO2017和ADE20K上分别进行图像分类、目标检测和语义分割实验,ConvFormer-Tiny与不同视觉任务中同量级最优网络RetNetY-4G,Swin-Tiny和ResNet50对比,精度分别提高0.3%,1.4%和0.5%.

作者:胡杰昌敏杰徐博远徐文才Author:HUJieCHANGMin-jieXUBo-yuanXUWen-cai
作者单位:武汉理工大学汽车工程学院,湖北武汉430070;武汉理工大学现代汽车零部件技术湖北省重点实验室,湖北武汉430070;武汉理工大学汽车零部件技术湖北省协同创新中心,湖北武汉430070;武汉理工大学湖北省新能源与智能网联车工程技术研究中心,湖北武汉430070
刊名:电子学报
Journal:ActaElectronicaSinica
年,卷(期):2024, 52(1)
分类号:TP391.41
关键词:机器视觉自注意力主干网络Transformer
Keywords:machinevisionself-attentionbackbonenetworkTransformer
机标分类号:TP391TP183TN911.73
在线出版日期:2024年4月16日
基金项目:ConvFormer:基于Transformer的视觉主干网络[
期刊论文]电子学报--2024, 52(1)胡杰昌敏杰徐博远徐文才针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvForm?er.ConvForme...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文

        ConvFormer:基于Transformer的视觉主干网络ConvFormer: Vision Backbone Network Based on Transformer

ConvFormer:基于Transformer的视觉主干网络.pdf
页: [1]
查看完整版本: ConvFormer基于Transformer的视觉主干网络