Masked Language Modeling for Proteins via LinearlyScalable Long-Context Transformers

2021-03-07 20:59:24 阅读：176 来源： 互联网

标签：Transformer via Transformers Language 矩阵 transformer FAVOR token 注意力

摘要

transformer模型已在各种领域中取得了最先进的结果。但是，对训练注意力机制以学习远程输入之间的复杂依存关系的成本的担忧不断增加。利用学习的注意力矩阵的结构和稀疏性的解决方案出现了。但是，涉及长序列的实际应用（例如生物序列分析）可能无法满足这些假设，从而无法探索这些模型。为了解决这一挑战，我们提出了一种基于快速随机正交特征（FAVOR）的新型Transformer架构，Performer。我们的机制在token中的token数量上线性缩放，而不是平方缩放，其特征在于亚二次空间复杂度，并且不包含任何先验稀疏性模式。此外，它提供了有力的理论保证：注意力矩阵的无偏估计和一致收敛。它也与预训练的regularTransformers向后兼容。我们证明了其对蛋白质序列建模的挑战性任务的有效性，并提供了详细的理论分析。

transformer出现的问题

注意机制的近似值不足。由于梯度仅在局部窗口内传播，因此基于截短反向传播的近似值也无法捕获远距离相关性。

performer解决的问题

我们基于正交随机特征（FAVOR）的快速注意力，提出了一种新的Transformer架构，Performer。 FAVOR设计用于长输入序列，其中token数表示用于嵌入维数。与以前的方法相比，我们没有通过各种结构先验来简化常规注意力（这可能导致不同的，潜在的不兼容的体系结构），而是显示了它可以按原样有效地近似，而没有任何“提升”。这使我们的方法变得灵活：与少量的微调结合，Performer可与预训练的常规Transformer向后兼容，并且也可以在Transformer范围之外用作常规关注的扩展的替代品。

FAVOR机制

在这里插入图片描述
输入，其中隐藏维度（潜伏表示的维数）。矩阵Q，K，V是输入及其行的中间表示形式，可以分别解释为连续字典数据结构的查询，键和值。双向（或无向）点积的z注意力形式如下

tril(·)返回参数矩阵的下三角部分，包括对角线。单向注意力在生成transformer以及Seq2Seq的解码器部分中用作自注意力，而双向注意力在Seq2Seq架构中的编码器自注意力和编码器-解码器注意力中使用。

标签：Transformer,via,Transformers,Language,矩阵,transformer,FAVOR,token,注意力
来源： https://blog.csdn.net/weixin_44251938/article/details/114482757

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Masked Language Modeling for Proteins via LinearlyScalable Long-Context Transformers

摘要

transformer出现的问题

performer解决的问题

FAVOR机制