ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Masked Autoencoders Are Scalable Vision Learners 论文研读

2021-12-11 17:35:15  阅读:182  来源: 互联网

标签:NLP 编码器 语义 模型 mask Scalable Autoencoders Masked 向量


NLPCV
TransformerViT
BERTMAE

在这里插入图片描述

文章目录

1. 标题

  Masked Autoencoders Are Scalable Vision Learners指的是带掩码的自编码器是可扩展的视觉学习器。其中这里的Autoencoders指的是模型的输入和输出都是相同的,简单来说Autoencoder=encoder+decoder。

  作者其中包括了ResNet的第一作者何恺明大神。

2. 摘要

  MAE的方法比较简单:对输入图片进行随机块的mask,然后对mask块中的像素进行重构。核心设计主要是源于两点。

  第一,设计了非对称的编码器和解码器架构,其中编码器仅对没有进行mask的区域进行编码,解码器是轻量级的,能够重构原始的图片。

  第二,如果对图片中绝大多数的区域进行mask,比如75%,就会得到一个很有意义的自监督任务。

  通过上述两个设计,就能够更加有效地训练大模型,如训练速度提升3倍,并且提高训练的精度。

  在ViT-Huge的模型中仅仅使用100W的数据就能得到(87.8%)的准确率。在下游任务进行迁移学习的效果优于有监督的预训练。

3. 模型架构

在这里插入图片描述
  其中masked的块被涂成灰色(绝大部分)。将没有masked的区域作为encoder(ViT)的输入,将其输出填入到新构建的长向量中。灰色部分只包含了位置向量填入到新构建的长向量中。然后将长向量输入到decoder中,最终还原出整个原来的图片。encoder的模型复杂度大于decoder。

4. 结论

  简单的算法具有一定的扩展性,是深度学习的核心。在NLP中,简单的自监督学习方法得到了成功的应用。但在计算机视觉中,预训练范式绝大多数还是有监督的方法。在本研究中,使用了autoencoder进行类似于NLP的自监督学习。

  在另一方面,由于图像和语言数据的本质并不相同,所以必须谨慎进行处理。在NLP中,一个词是一个语义的单元,包含的语义信息是比较多的。在图像中,虽然每个patch包含一定的语义信息。但它并不是一个语义的segment。MAE能够学习到比较好的语义表达。

标签:NLP,编码器,语义,模型,mask,Scalable,Autoencoders,Masked,向量
来源: https://blog.csdn.net/herosunly/article/details/121874941

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有