FAIR何恺明团队最新研究：定义ViT检测迁移学习基线

2021-11-24 12:03:47 阅读：243 来源： 互联网

作者丨happy
编辑丨极市平台
本文原创首发于极市平台公众号，转载请获得授权并标明出处。

论文链接：https://arxiv.org/abs/2111.11429

本文是FAIR的何恺明团队关于ViT在COCO检测任务上的迁移学习性能研究。它以Mask R-CNN作为基线框架，以ViT作为骨干网络，探索了不同初始化策略对于模型性能的影响；与此同时，为尽可能保证对比的公平性，还对不同超参数进行了大量的实验；此外，为将ViT作为多尺度模式，参考XCiT对ViT不同部分的特征进行尺度调整以达成多尺度特征输出；为使得ViT模型能处理大分辨率图像，还对ViT的架构进行了改进，引入了全局与局部自注意力机制，进一步提升了模型性能取得了更佳的均衡。该文的一系列实验表明：masking机制的无监督学习机制(如MAE、BEiT)首次在COCO检测任务迁移学习中取得了令人信服的性能提升 。

Abstract

为测试预训练模型能否带来性能增益(准确率提升或者训练速度提升)，目标检测是一个常用的且非常重要的下游任务。面对新的ViT模型时，目标检测的复杂性使得该基线变得尤为重要(non-trivial )。然而架构不一致、缓慢训练、高内存占用以及未知训练机制等困难阻碍了标准ViT在目标检测任务上的迁移学习。

本文提出了训练技术以克服上述挑战，并采用标准ViT作为Mask R-CNN的骨干。这些工具构成了本文的主要目标：我们比较了五种ViT初始化，包含SOTA自监督学习方法、监督初始化、强随机初始化基线。

结果表明：近期提出的Masking无监督学习方法首次提供令人信服的迁移学习性能改善 。相比监督与其他自监督预训练方法，它可以提升 A P b o x AP^{box} APbox指标高达4% ；此外masking初始化具有更好的扩展性，能够随模型尺寸提升进一步提升其性能。

全文链接：FAIR何恺明团队最新研究：定义ViT检测迁移学习基线

关注极市平台公众号，获取最新CV干货
在这里插入图片描述

标签：初始化,何恺明,FAIR,检测,学习,基线,ViT,迁移
来源： https://blog.csdn.net/Extremevision/article/details/121512341

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

FAIR何恺明团队最新研究：定义ViT检测迁移学习基线

Abstract