ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

iBOT:使用在线Tokenizer对图像进行BERT式预训练

2021-12-19 14:30:28  阅读:342  来源: 互联网

标签:BERT Tokenizer tokenizer 语义 掩码 ViT ImageNet iBOT


Zhou, Jinghao, Chen Wei, Huiyu Wang, Wei Shen, Cihang Xie, Alan Loddon Yuille and Tao Kong. “iBOT: Image BERT Pre-Training with Online Tokenizer.” ArXiv abs/2111.07832 (2021).

1 Abstract

语言Transformers的成功主要归功于掩码语言建模(MLM) pretext任务,其中文本被tokenized成为语义上有意义的片段。在这项工作中,我们研究了掩码图像建模(MIM),并指出了使用语义上有意义的视觉tokenizer的优势和挑战。我们提出了一个自监督框架iBOT,它可以通过在线tokenizer进行掩码预测。具体来说,我们对掩码patch tokens进行自蒸馏,并将teacher网络作为在线tokenizer,同时对class token进行自蒸馏以获得视觉语义。在线tokenizer可以与MIM目标共同学习,无需进行额外的预训练。在ImageNet-1K上,我们获得了81.6%的线性探测精度和86.3%的微调精度,这显示了iBOT的优越性。我们不仅获得了SOTA的图像分类结果,还强调了局部语义模式的重要性,这有助于模型获得强大的鲁棒性,并在目标检测、实例分割、语义分割等下游任务上取得领先的结果。

2 Method, Experiment & Result

图1. ImageNet上的线性探测精度。我们将iBOT与BYOL、DINO、SwAV、MoCo v3等无监督基线模型进行了比较。

图2. 掩码图像建模(MIM)。I表示图像,Tok.表示视觉tokenizer。

图3. iBOT框架的概述,使用在线tokenizer进行掩码图像建模。

表1. 在ImageNet-1K上的k-NN和线性探测的结果。

表2. 在ImageNet-1K上进行微调的结果。

表3. 在ImageNet-22K上进行预训练,在ImageNet-1K上进行微调的结果。

表4. 在ImageNet-1K上进行半监督学习的结果。1%和10%表示标签的比例。SD表示自蒸馏(Self-Distillation)。

表5. 在ImageNet-1K上进行无监督学习的结果。

表6. 在COCO上的目标检测(Det.)和实例分割(ISeg.)结果,以及在ADE20K上的语义分割(Seg.)结果。左:ViT-S/16。右:ViT-B/16。

表7. 在不同数据集上通过微调预训练模型进行迁移学习的结果。左:ViT-S/16。右:ViT-B/16。

图4. Patch tokens的模式布局。左边的两张图共享局部类别语义(车前灯和狗耳朵)。右边的两张图共享局部纹理语义(条纹和曲面)。

图5. iBOT和DINO的线性探测精度。

图6. 自注意力图的可视化。来自多个头的自注意力图用不同的颜色显示。

表8. 预训练模型的鲁棒性评估。

表9. 语义上有意义的tokenization设计选择的影响。

3 Conclusion / Disccusion

在这项工作中,我们研究了视觉Transformers的BERT式预训练,并强调了语义上有意义的视觉tokenizer的重要性。我们提出了一个自监督框架iBOT,该框架通过在线tokenizer的自蒸馏进行掩码图像建模,并在图像分类、目标检测、实例分割和语义分割等下游任务上实现了SOTA结果。特别有趣的是,我们为使用MIM训练的模型确定了一种局部语义,它不仅有助于提高识别的精度,而且有助于提高模型的鲁棒性。未来,我们计划将iBOT扩展到更大的数据集(如ImageNet-22K)或更大的模型尺寸(如ViT-L/16和ViT-H/16),并研究MIM是否可以帮助视觉Transformers更好地扩展到自然场景下的未标记数据上。

关注“多模态人工智能”,一起进步!

标签:BERT,Tokenizer,tokenizer,语义,掩码,ViT,ImageNet,iBOT
来源: https://blog.csdn.net/weixin_51697828/article/details/122023656

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有