Why transformer？（三）

2022-02-01 13:02:16 阅读：223 来源： 互联网

标签：得到 transformer attention Cross encoder decoder Why 向量

在这一部分我们就要弄明白“encoder和decoder之间是怎么传递讯息的”了，如果你仔细观察下图红方块那一块的话（也就是我们在 Why transformer（二）中遮起来的那一块），那我们就把这一块叫做Cross attention，它是连接encoder和decoder之间的桥梁。

三、Cross attention

上图红色框中你会发现，有两个输入来自于encoder（图中蓝色圆圈），另外一个输入才来自decoder。那这个模组实际上是怎么运作的呢？假设我们现在输入一排向量给encoder，encoder输出一排向量a1,a2,a3后呢乘上一个矩阵产生 $k^{1},k^{2},k^3$ ；接下来轮到你的decoder，decoder会先吃进去一个特殊字符“beginning”，经过Masked self-attention以后，得到一个向量，把这个向量乘上一个矩阵做transform，得到一个query，记作q。紧接着把q与 $k^{1},k^2,k^3$ 做dot-product，计算得到attention的分数 $\alpha _{1}^{'},\alpha _{2}^{'},\alpha _{3}^{'}$ ，这里加上一撇代表说你可能做过normalization后得到的结果。接下来再把 $\alpha _{1}^{'},\alpha _{2}^{'},\alpha _{3}^{'}$ 分别乘上 $v^1,v^2,v^3$ 后加起来，得到 $v$ 。那这个v啊，就会被丢到FC中做处理。综上所述，q来自decoder，k跟v来自encoder，这个步骤就叫做Cross attention。

更一般的，现在假设产生一个中文字“机”，那接下来的操作也是跟上面一摸一样的。decoder输入“beginning”输入“机”产生一个向量，这个向量同样乘上一个矩阵做transform，得到一个query记作 $q^{'}$ 。这个 $q^{'}$ 同样跟 $k^{1},k^{2},k^3$ 去计算attention score得到 $\alpha _{1}^{'},\alpha _{2}^{'},\alpha _{3}^{'}$ ；之后再分别乘上 $v^1,v^2,v^3$ 后加起来，得到 $v^{'}$ ，直接交给FC做处理。所以这就是Cross attention运作的过程

那写到现在，transformer简单的东西就已经全部表述完成了，关于代码的解析呢，目前还在酝酿当中。再怎么说过年还是要玩两手牌的，所以就写到这里。

标签：得到,transformer,attention,Cross,encoder,decoder,Why,向量
来源： https://blog.csdn.net/m0_57541899/article/details/122761220

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Why transformer？（三）

三、Cross attention