返回列表 发布新帖

ConvFormer基于Transformer的视觉主干网络

9 0
admin 发表于 2024-12-14 14:13 | 查看全部 阅读模式

文档名:ConvFormer基于Transformer的视觉主干网络
摘要:针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvForm?er.ConvFormer通过所设计的多尺度混洗自注意力模块(Channel-ShuffleandMulti-Scaleattention,CSMS)和动态相对位置编码模块(DynamicRelativePositionCoding,DRPC)来聚合多尺度像素块间的语义信息,并在前馈网络中引入深度卷积提高网络的局部建模能力.在公开数据集ImageNet-1K,COCO2017和ADE20K上分别进行图像分类、目标检测和语义分割实验,ConvFormer-Tiny与不同视觉任务中同量级最优网络RetNetY-4G,Swin-Tiny和ResNet50对比,精度分别提高0.3%,1.4%和0.5%.

作者:胡杰  昌敏杰  徐博远  徐文才Author:HUJie  CHANGMin-jie  XUBo-yuan  XUWen-cai
作者单位:武汉理工大学汽车工程学院,湖北武汉430070;武汉理工大学现代汽车零部件技术湖北省重点实验室,湖北武汉430070;武汉理工大学汽车零部件技术湖北省协同创新中心,湖北武汉430070;武汉理工大学湖北省新能源与智能网联车工程技术研究中心,湖北武汉430070
刊名:电子学报
Journal:ActaElectronicaSinica
年,卷(期):2024, 52(1)
分类号:TP391.41
关键词:机器视觉  自注意力  主干网络  Transformer  
Keywords:machinevision  self-attention  backbonenetwork  Transformer  
机标分类号:TP391TP183TN911.73
在线出版日期:2024年4月16日
基金项目:ConvFormer:基于Transformer的视觉主干网络[
期刊论文]  电子学报--2024, 52(1)胡杰  昌敏杰  徐博远  徐文才针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvForm?er.ConvForme...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文

        ConvFormer:基于Transformer的视觉主干网络  ConvFormer: Vision Backbone Network Based on Transformer

ConvFormer:基于Transformer的视觉主干网络.pdf
2024-12-14 14:13 上传
文件大小:
2.28 MB
下载次数:
60
高速下载
【温馨提示】 您好!以下是下载说明,请您仔细阅读:
1、推荐使用360安全浏览器访问本站,选择您所需的PDF文档,点击页面下方“本地下载”按钮。
2、耐心等待两秒钟,系统将自动开始下载,本站文件均为高速下载。
3、下载完成后,请查看您浏览器的下载文件夹,找到对应的PDF文件。
4、使用PDF阅读器打开文档,开始阅读学习。
5、使用过程中遇到问题,请联系QQ客服。

本站提供的所有PDF文档、软件、资料等均为网友上传或网络收集,仅供学习和研究使用,不得用于任何商业用途。
本站尊重知识产权,若本站内容侵犯了您的权益,请及时通知我们,我们将尽快予以删除。
  • 手机访问
    微信扫一扫
  • 联系QQ客服
    QQ扫一扫
2022-2025 新资汇 - 参考资料免费下载网站 最近更新浙ICP备2024084428号-1
关灯 返回顶部
快速回复 返回顶部 返回列表