attention

【CVPR2022】Lite Vision Transformer with Enhanced Self-Attention2022-05-02 01:31:06

论文：https://readpaper.com/paper/633541619879256064 代码：https://github.com/Chenglin-Yang/LVT 1、研究动机尽管ViT模型在各种视觉任务中效果显著，但是目前轻量级的ViT模型在局部区域效果不理想，作者认为：自注意力机制在浅层网络有局限性（Self-attention mechanism is limited
[论文] 基于轴向注意多尺度时频卷积网络的语音增强算法2022-04-29 22:01:47

本文介绍了ICASSP2022 DNS Challenge和AEC Challenge第一名百度的技术方案。该方案提出了一种信号处理-深度学习混合式方法(hybrid method)，同时抑制回声、噪声和混响。其中信号处理部分利用线性回声消除算法为深度神经网络提供条件信息(conditional information)；而深度学习部分提
Transformer学习资源&顺序推荐2022-04-21 01:02:40

因为我个人不喜欢听一个老师重复讲而喜欢听多位老师讲同一个东西所以整理了一下这份清单，我觉得比我自己的学习顺序要好一些！ attention本质还是权重（？（可选）前置知识：词嵌入、表征（文章）：完全没接触NLP的我觉得它讲的真的挺清楚（可选）了解transformer的基本结构（视频）：看这个封面真的没想到
Attention Mechanism in Computer Vision2022-04-17 13:02:25

前言本文系统全面地介绍了Attention机制的不同类别，介绍了每个类别的原理、优缺点。欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。概述 Attention机制目的在于聚焦有用的信息，并减少不重要信息的比重。Attention机
阅读论文：《Compositional Attention Networks for Machine Reasoning》2022-04-10 20:04:18

标题：机器推理的合成注意网络来源：ICLR 2018 https://arxiv.org/abs/1803.03067 代码：https://github.com/stanfordnlp/mac-network 作者笔记：https://cs.stanford.edu/people/dorarad/mac/blog.html 一、问题提出虽然当前的深度神经网络模型在学习”输入和输出之间的直接映射“方
各种Attention机制原理2022-04-01 08:02:54

下面是9种Attention以及Attention变种的方法，其中LRA表示性能，横坐标表示运行速度，圈圈大小表示占的内存大小。 Transformer 是传统的Attention机制。 Big Bird 就是小孩子才做选择，啥都综合在一起。综合global attention， local attention 和随机attention。 Synthesizer新的想法，atten
用于Transformer的6种注意力的数学原理和代码实现2022-03-31 10:34:08

Transformer 的出色表现让注意力机制出现在深度学习的各处。本文整理了深度学习中最常用的6种注意力机制的数学原理和代码实现。 1、Full Attention 2017的《Attention is All You Need》中的编码器-解码器结构实现中提出。它结构并不复杂，所以不难理解。上图 1.左侧显示了 Scale
NLP知识总结和论文整理2022-03-26 01:03:16

词向量参考论文: Efficient Estimation of Word Representations in Vector Space CBOW (Continuous Bag-of-Word): 挑一个要预测的词，来学习这个词前后文中词语和预测词的关系。 Skip-Gram: 使用文中的某个词，然后预测这个词周边的词。相比 CBOW 最大的不同，就是剔除掉了中间的
【Linear Attention Mechanism: An Efficient Attention for Semantic Segmentation】CVPR20202022-03-20 10:00:43

提出了一种线性注意力机制，与点乘注意力机制近似，但使用更少的内存和计算损耗。本文在DANet上设计了线性注意力机制，并在语义分割上进行评估。 Method 将注意力从传统的softmax注意力替换成泰勒展开的一阶近似，仅线性的时间和存储复杂度。之后太强了，用核函数替换sim
软性注意力和硬性注意力2022-03-04 17:04:10

注意力机制中的软和硬注意力机制是当前深度学习领域比较流行的一个概念。其模仿人的视觉注意力模式，每次只关注与当前任务最相关的源域信息，使得信息的索取更为高效。注意力机制已在语言模型、图像标注等诸多领域取得了突破进展。注意力机制可分为软和硬两类：软性注意力（Soft A
笔记：Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification2022-03-03 13:33:04

Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification 作者：Zhou P.ACL 2016. 目录 Abstract Model Experiments Conclusion 1 Abstract 论文的产出首先就要发现问题，接着针对问题分析产生idea，进而解决问题出成果。那么本文作者主要针对
处理时间序列数据的高端模型Transformer和代码实现2022-02-27 19:02:04

1.Transformer Transformer 是由 Google 团队在 17 年 6 月提出的 NLP 经典之作，由 Ashish Vaswani 等人在 2017 年发表的论文 Attention Is All You Need 中提出。原文网址如下： https://arxiv.org/pdf/1706.03762.pdf Transfromer中使用了self-attention机制，那何为attention
自然语言处理（二十九）：Transformer与BERT常见问题解析2022-02-27 17:35:10

自然语言处理笔记总目录 Transformer介绍 BERT介绍 Transformer结构图：一、Transformer结构中的Decoder端具体输入是什么? 在训练阶段和预测阶段一致吗? Decoder端的架构：Transformer论文中的Decoder模块是由N=6个相同的Decoder Block堆叠而成，其中每一个Block是由3个子
A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action Localization概述2022-02-26 19:01:18

　　大多数现有的WTAL方法依赖于多示例学习（MIL）范式，然而，现有的基于MIL的方法有两个局限性　　（1）即只捕获动作中最具辨别力的帧，而忽略活动的全部范围。　　（2）这些方法不能有效地对背景活动进行建模，这在定位前景活动方面起着重要作用。 2.主要贡献（1）提出了一个新的框架，其中包含一个混
Fine-grained Detection —— JP-MT、WS-DAN2022-02-25 09:04:49

Fine-grained Detection —— JP-MT、WS-DAN（2022.02.25） 1. JP-MT1.1. Progressive Training1.2. Jigsaw Puzzle Generator1.3. My Thinking1.3.1. PT部分1.3.2. JPG部分1.4. My Summary 2. WS-DAN2.1. Weakly Supervised Attention Learning2.2. Attention-Guided Data Au
【ocr 文字检测】DocSegTr: An Instance-Level End-to-End Document Image Segmentation Transformer2022-02-24 17:04:58

论文链接：https://arxiv.org/pdf/2201.11438.pdf 代码：https://github.com/biswassanket/DocSegTr 出处：西班牙巴塞罗那自治大学目的：要理解复杂布局的文档首先就需要进行信息提取。本文目的就是通过实例级别分割获得不同的文章目标（different document objects），如：标题，章节，图片，表格等
论文解读（AGCN）《 Attention-driven Graph Clustering Network》2022-02-17 23:32:17

Paper Information Title：《Attention-driven Graph Clustering Network》Authors：Zhihao Peng, Hui Liu, Yuheng Jia, Junhui HouSource：2021, ACM MultimediaOther：1 Citations, 46 ReferencesPaper：DownloadCode：DownloadTask： Deep Clustering、Graph Clustering、Graph Conv
Transformer计算量和过程统计2022-02-11 11:05:57

整理一下Transformer相关论文的计算量和计算流程一、Vision Transformer Vision Transformer的结构在大佬 “太阳花的小绿豆” 的博文里面有明确的分析。这里我也是借由这篇博文来写的。图片来源：太阳花的小绿豆-Vision Transformer详解 I. Patch Embedding层分析输入
【论文精读】ViT-2021-ICLR2022-02-10 21:32:04

背景： transformer用到视觉问题上的难处： transfomer的计算复杂度， O ( n 2 ) O(n
tensorflow2实现coordinate attention2022-02-08 13:33:56

import tensorflow as tf from tensorflow.keras.layers import (Conv2D,AvgPool2D,Input) def CoordAtt(x, reduction = 32): def coord_act(x): tmpx = tf.nn.relu6(x+3) / 6 x = x * tmpx return x x_shape = x.get_shape().as_list()
SKNet: Selective Kernel Networks2022-02-08 13:03:19

论文 Selective Kernel Networks We propose a dynamic selection mechanism in CNNs that allows each neuron to adaptively adjust its receptive field size based on multiple scales of input information.However, some other RF properties of cortical neurons have
Transformer可解释性：注意力机制注意到了什么？2022-02-07 12:32:28

©原创作者 | FLPPED 论文： Self-Attention Attribution: Interpreting Information Interactions Inside Transformer （2021 AAAI论文亚军）地址： https://arxiv.org/pdf/2004.11207.pdf 01 研究背景随着transformer模型的提出与不断发展，NLP领域迎来了近乎大一统的时代，绝大多数预训
淘宝逛逛，融合淘宝商品序列 - 逛逛场景内容序列的办法2022-02-04 22:32:54

一、难点一右侧的公式是从底往上看两个mean-pooling很简单，假设形成64维的向量 Ec1 Ei1，相乘得到Ef1，也是64维向量，这里的vanilla-attention（推荐搜索的冷启动问题_1066196847的博客-CSDN博客） vanilla-attention的重点是，Query由decoder输出，也就相当于这里的Ef1，K V由encoder输入，
我删掉了Transformer中的这几层…性能反而变好了？2022-02-03 10:30:14

基于Transformer结构的各类语言模型（Bert基于其encoder,Gpt-2基于其decoder）早已经在各类NLP任务上大放异彩，面对让人眼花缭乱的transformer堆叠方式，你是否也会感到迷茫？没关系，现在让我们回到最初，再次看看transformer 本来的模样——Rethinking the Value of Transformer Compone
10_从Attention层到Transformer网络2022-02-02 09:02:13

文章目录一、Multi-Head Attention（多头）1.1 Single-Head Self-Attention（单头Self-Attention）1.2 Multi-Head Self-Attention（多头Self-Attention）1.3 Multi-Head Attention（多头Attention）二、Stacked Self-Attention Layers（堆叠）2.1 Self-Attention Layer+Dense Layer2.2 Stack

首页 < 1 2 3 4 5 6 7 8 > 尾页

ICode9

【CVPR2022】Lite Vision Transformer with Enhanced Self-Attention2022-05-02 01:31:06

[论文] 基于轴向注意多尺度时频卷积网络的语音增强算法2022-04-29 22:01:47

Transformer学习资源&顺序推荐2022-04-21 01:02:40

Attention Mechanism in Computer Vision2022-04-17 13:02:25

阅读论文：《Compositional Attention Networks for Machine Reasoning》2022-04-10 20:04:18

各种Attention机制原理2022-04-01 08:02:54

用于Transformer的6种注意力的数学原理和代码实现2022-03-31 10:34:08

NLP知识总结和论文整理2022-03-26 01:03:16

【Linear Attention Mechanism: An Efficient Attention for Semantic Segmentation】CVPR20202022-03-20 10:00:43

软性注意力和硬性注意力2022-03-04 17:04:10

笔记：Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification2022-03-03 13:33:04

处理时间序列数据的高端模型Transformer和代码实现2022-02-27 19:02:04

自然语言处理（二十九）：Transformer与BERT常见问题解析2022-02-27 17:35:10

A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action Localization概述2022-02-26 19:01:18

Fine-grained Detection —— JP-MT、WS-DAN2022-02-25 09:04:49

【ocr 文字检测】DocSegTr: An Instance-Level End-to-End Document Image Segmentation Transformer2022-02-24 17:04:58

论文解读（AGCN）《 Attention-driven Graph Clustering Network》2022-02-17 23:32:17

Transformer计算量和过程统计2022-02-11 11:05:57

【论文精读】ViT-2021-ICLR2022-02-10 21:32:04

tensorflow2实现coordinate attention2022-02-08 13:33:56

SKNet: Selective Kernel Networks2022-02-08 13:03:19

Transformer可解释性：注意力机制注意到了什么？2022-02-07 12:32:28

淘宝逛逛，融合淘宝商品序列 - 逛逛场景内容序列的办法2022-02-04 22:32:54

我删掉了Transformer中的这几层…性能反而变好了？2022-02-03 10:30:14

10_从Attention层到Transformer网络2022-02-02 09:02:13