ICode9

精准搜索请尝试: 精确搜索
  • NLP (四): RNN / Attention based seq2seq2021-10-29 21:00:37

    本文为《深度学习进阶: 自然语言处理》的读书笔记 目录 seq2seq 模型Encoder-Decoder 模型seq2seq 的应用 RNN based seq2seqseq2seqEncoderDecoderseq2seq (Encoder + Decoder) seq2seq 的实现Encoder 类Decoder 类Seq2seq 类 seq2seq 的评价时序数据转换的简单尝试 (toy

  • 坐标注意力机制简介2021-10-25 23:34:24

    本文将介绍一种新提出的坐标注意力机制,这种机制解决了SE,CBAM上存在的一些问题,产生了更好的效果,而使用与SE,CBAM同样简单。 论文地址: https://arxiv.org/pdf/2103.02907.pdf 代码地址: https://github.com/AndrewQibin/CoordAttention   大部分注意力机制用于深度神经网络可以带来很

  • 【3D 目标检测】Voxel Transformer for 3D Object Detection2021-10-23 22:30:32

    一 核心思想 本文主要是在3D backbone上用到了改进的transformer方法,以便更好的提取特征。也就是在sparse voxel module和submanifold voxel module的基础上使用transformer进行特征的提取。 提出两种attention的机制,分别为Local Attention 和 Dilated Attention。之后

  • 第六周:论文泛读(一)2021-10-23 21:32:49

    1、《Selective Kernel Networks》 论文原址:https://arxiv.org/pdf/1903.06586.pdf 开源参考地址:github: https://github.com/implus/SKNet SKNet核心思想是用多尺度的特征获得通道级别的权重,使用5×5的Kernel提升精度,采用普遍的Attention操作。为降低参数量,使用Group Convolutio

  • 序列模型2021-10-22 20:33:43

    序列建模 行为序列数据蕴含用户的兴趣偏好,对该信息的挖掘可以提高推荐结果的准确性。 行为序列建模可以归纳为两个方面: 特征工程 模型结构 特征是对某个行为过程的抽象表达,特征工程旨在更精确的刻画行为过程,需要对具体的业务场景有一定的理解。构建完特征后,还需要运用合适的技术

  • Self-Attention理解2021-10-22 16:02:47

    目录 一.Attention机制二.键值对注意力三.Q、K、V矩阵 一.Attention机制 Attention用于计算"相关程度", 例如在翻译过程中,不同的英文对中文的依赖程度不同,Attention通常可以进行如下描述,表示为将query (Q)和键值对(key-value pairs) { Ki , Vi | i=1,2,3,…,m} 映射到输

  • 2021-10-222021-10-22 13:02:01

    dao xml文件 <update id="edit" parameterType="com.itheima.pojo.CheckGroup"> update t_checkgroup <set> <if test="code != null"> code=#{code}, </if>

  • 李宏毅《深度学习》- Self-attention 自注意力机制2021-10-20 22:00:59

    Transformer & BERT PPT: https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/self_v7.pdf 【李宏毅《机器学习/深度学习》2021课程(国语版本,已授权)-哔哩哔哩】https://b23.tv/baegp9 一、问题分析 1. 模型的输入 无论是预测视频观看人数还是图像处理,输入都可以看

  • Transformer学习2021-10-19 14:03:57

    Attention Is All You Need 模型结构 Encoder Encoder是有N=6层的一个整体。是这6层按顺序走下来的一个整体。 每层有两个子层。分别是多头自注意力和全连接前馈网络。 对于每个子层,先采用残差连接,后采用layer normalization \[LayerNorm(x+Sublayer(x)) \]为保证能够进行残差连

  • CBAM 论文笔记2021-10-13 13:29:57

    CBAM: Convolutional Block Attention Module CBAM ECCV 2018 论文链接: https://arxiv.org/abs/1807.06521 一、 Problem Statement SE block只关注于channel-wise attention,但是忽略了spatial-wise attetion。作者融合了这两个,提升SE Module的性能。 二、 Direction 通过C

  • Transformer2021-10-12 23:57:57

    seq2seq的模型很多,输入一排向量,输出一排向量,可以使用self-attention,rnn,cnn,而transformer使用的就是self-attention transformer结构 residualnorm (Layer Norm)

  • Self-Attention2021-10-11 15:05:27

    类型 对于输入n个向量,网络输出 m 个向量,即输出的个数由机器自己决定,我们称作 seq2seq 任务

  • 动手学深度学习 | 自注意力 | 672021-10-11 09:03:58

    目录自注意力代码QA 自注意力 在介绍transformer之前,先讲一个比价重要的东西=》 self-attention。self-attention其实没有什么特殊的地方,主要就是key,value,query到底要怎么选择,自注意力机制有自己的一套选法。 CNN,RNN,self-attention都可以用来处理序列。 CNN要实现序列处理,其实

  • 机器学习之深度学习学习笔记(五)2021-10-09 10:06:15

    文章目录 (一)TransformerEncoderDecoderAutoregressive(AT)Non-autoregressive(NAT) Encoder和Decoder之间的桥梁训练 (二)结语 (一)Transformer Transformer是Sequence-toSequence(Seq2Seq)的一个模型,我们之前在作一些实验的时候,当我们输入一个Sequence时,我们的输出也会是一个Seque

  • embedding、LSTM、seq2seq+attention的知识总结2021-10-05 10:03:15

    一、 embedding 1. input : [ seqlen , batchsize ] 2. output: [ seq_len, batchsize, embed_dim ] 二、 LSTM 输入: 1. input: [ seq_len, batch, input_size] 2. h0 : [ num_layers * num_directions,batch_size,hidden_size ] 输出: 1. out: [ seq_len, batch, num_dir

  • Transformer架构记录(四)2021-10-03 18:01:10

    Transformer架构记录(一、二、三)针对Transformer的Encoder-block部分做了简要介绍,本文作为该系列的最终章,将以Decoder-block介绍结束本系列。 一个完整的Decoder-block的结构如下所示: Decoder-block与Encoder-block的差别在以下几处: 第一个 Multi-Head Attention 层采用了 Masked

  • 学习笔记之机器翻译与文本摘要22021-10-02 19:31:49

    文章目录 一、Attention机制1. Banhdanuo_attention2. Luong_attention3. 其他Attention 二、评判标准1. BLUE2. ROUGE 三、解码优化1.压缩字典2. Beam Search 一、Attention机制 在机器翻译或者文本翻译的背景下,使用Attention机制的最主要解决的问题是Seq2Seq对于长距

  • Transformer《Attention Is All You Need》的理论理解2021-09-30 21:03:27

    2021-09-23至2021-10-30关于transformer的学习   Transformer的提出解决了两个问题:   (1) 首先它使用了Attention机制,将序列中的任意两个位置之间的距离是缩小为一个常量;   (2) 其次它不是类似RNN(不能并行)的顺序结构,因此具有更好的并行性,符合现有的GPU框架。          t

  • 文献阅读_image caption_Knowledge-Based Systems2021_Reasoning like Humans: On Dynamic Attention Prior in2021-09-29 22:32:06

    Reasoning like Humans: On Dynamic Attention Prior in Image Captioning   一言以蔽之:引入前一时序的注意力(ADP),引入 整个句子作为输入(LLC),以基本相同的参数和算量,实现CIDER-D提升2.32%   Abstract & Conclusion 1. most conventional deep attention models perform attention

  • 回归预测 | MATLAB实现Attention-LSTM(注意力机制长短期记忆神经网络)多输入单输出2021-09-27 23:33:02

    回归预测 | MATLAB实现Attention-LSTM(注意力机制长短期记忆神经网络)多输入单输出 目录 回归预测 | MATLAB实现Attention-LSTM(注意力机制长短期记忆神经网络)多输入单输出 基本介绍 模型背景 LSTM模型 Attention-LSTM 模型 数据下载 程序设计 参考资料 致谢

  • 【深度学习 十】swin transformer:屠榜各大cv比赛2021-09-24 09:58:16

    概要  Swin transformer: Hierarchical Vision Transformer using Shifted Windows,是微软2021.03.25公布的一篇利用transformer架构处理计算机视觉任务的论文。在图像分割,目标检测各个领域已经霸榜,让很多人看到了transformer完全替代卷积的可能。而且它的设计思想吸取了resnet

  • Transformer结构及其应用详解--GPT、BERT、MT-DNN、GPT-22021-09-22 20:06:28

    本文首先详细介绍Transformer的基本结构,然后再通过GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名应用工作的介绍并附上GitHub链接,看看Transformer是如何在各个著名的模型中大显神威的。 一、取代RNN——Transformer 在介绍Transformer前我们来回顾一下RNN的结构 对RNN

  • 【论文笔记】Deformable DETR:使用稀疏Attention实现目标检测2021-09-21 15:03:38

    概述 之前的DETR使用Transformer成功地实现了目标检测,而Deformable DETR针对DETR的缺点提出了一些改进。DETR主要有以下两个缺点: 相比于其它的目标检测模型,DETR需要更多的epoch才能收敛 DETR很难检测出小物体 对于第一个问题,作者认为这是Attention机制的锅,在初始化时,Attention的

  • transformer的encoder和decoder的差别2021-09-17 20:04:21

    包含两个 Multi-Head Attention 层。第一个 Multi-Head Attention 层采用了 Masked 操作。第二个 Multi-Head Attention 层的K, V矩阵使用 Encoder 的编码信息矩阵C进行计算,而Q使用上一个 Decoder block 的输出计算。最后有一个 Softmax 层计算下一个翻译单词的概率。 更详细的

  • NLP中的Transform理解2021-09-15 20:33:27

    Transform相关理论 transform模型Transformer模型在2017年被google提出,直接基于Self-Attention结构,取代了之前NLP任务中常用的RNN神经网络结构,并在WMT2014 Englishto-German和WMT2014 English-to-French两个机器翻译任务上都取得了当时的SOTA。 与RNN这类神经网络结构相比,Tra

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有