梯度

mmdetection训练出现nan2022-03-27 14:33:07

训练出现nan 在使用MMDetection训练模型时，发现打印信息中出现了很多nan。现象是，loss在正常训练下降的过程中，突然变为nan。梯度裁减在模型配置中加上grad_clip: optimizer_config = dict(grad_clip=dict(max_norm=35, norm_type=2)) 降低学习率如果添加了梯度裁剪依旧出现梯度
大二寒假摸鱼报告2022-03-19 14:33:49

摸鱼摸鱼摸鱼。。。。。寒假学习报告——深度学习包云飞自动化204 205506 摘要：本文作为本人深度学习的简要汇报关键字：深度学习学习报告引言：深度学习在人工智能领域揭起热潮，应用其原理使得多种技术落地进入人们的日常生活，本文则作为本人寒假学习的记录。一、
Pytorch中with torch.no_grad()或@torch.no_grad() 用法2022-03-19 10:31:43

参考Pytorch中with torch.no_grad()或@torch.no_grad() 用法 - 云+社区 - 腾讯云 requires_grad=True 要求计算梯度 requires_grad=False 不要求计算梯度 with torch.no_grad()或者@torch.no_grad()中的数据不需要计算梯度，也不会进行反向传播 model.eval()
torch.optim optimizer函数2022-03-08 12:35:24

class torch.optim.SGD(params, lr=, momentum=0, dampening=0, weight_decay=0, nesterov=False)[source] 实现随机梯度下降算法（momentum可选）。 Nesterov动量基于On the importance of initialization and momentum in deep learning中的公式. 参数： params (iterable) – 待
如何使用梯度裁剪（Gradient Clipping）避免梯度爆炸2022-03-06 14:03:13

给定误差函数，学习率，甚至目标变量的大小，训练神经网络可能变得不稳定。训练期间权重的较大更新会导致数值上溢或下溢，通常称为梯度爆炸（gradients exploding）。梯度爆炸在递归神经网络中更为常见，例如LSTM，因为梯度的累积在数百个输入时间步长上展开。梯度爆炸的一种常见且相对容
图像处理-梯度计算2022-03-05 22:34:39

1.概述 2.Laplacian算子下面我们用最后得出梯度的幅值为\(G(x,y) = \sqrt{ \left(g_{x}^2 +g_{y}^2\right)}\)方向为: \(\theta = \arctan{\frac{g_{y}}{g_{x}}}\)现在我们用程序来实现这个过程。拉普拉斯算子，在数学上的表达式为： \[L(x,y) = \frac{\partial f(x)}{\partial x^{
Lesson 13.3 梯度不平稳性与Glorot条件2022-03-02 19:30:51

Lesson 13.3 梯度不平稳性与Glorot条件从本节开始，将正式进入到优化方法的具体方法部分内容。首先是关于激活函数使用过程的优化。在上一节的结尾，我们发现，尽管激活函数的使用能够有效提升神经网络模型效果，但激活函数的简单叠加却会让模型出现很多问题。深度学习本来就是
动手深度学习笔记（二十二）4.8. 数值稳定性和模型初始化2022-03-01 19:58:00

动手深度学习笔记（二十二）4.8. 数值稳定性和模型初始化 4. 多层感知机 4.8. 数值稳定性和模型初始化 4.8.1. 梯度消失和梯度爆炸 4.8.1.1. 梯度消失 4. 多层感知机 4.8. 数值稳定性和模型初始化到目前为止，我们实现的每个模型都是根据某个预先指定的分布来初
人工智能、机器学习和模式识别以及神经网络2022-03-01 10:06:44

人工智能人工智能是一个比较宽泛的概念，它指的就是机器能像人类一样思考和行动。机器学习机器学习是实现人工智能的一种方法。机器学习最成功的应用领域是计算机视觉。机器学习通过训练模型，以主动学习的方式得到处理数据的方法。机器学习有三类：监督学习、无监督学习和强化
深度学习入门：SGD2022-03-01 10:06:25

SGD SGD为随机梯度下降法。用数学式可以将 SGD 写成如下的式（6.1）。这里把需要更新的权重参数记为W，把损失函数关于W的梯度记为∂L/∂W 。η 表示学习率，实际上会取 0.01 或 0.001 这些事先决定好的值。式子中的←表示用右边的值更新左边的值。如式（6.1）所示，SGD 是朝着梯度方向只
图解AI数学基础 | 微积分与最优化2022-02-25 01:04:18

作者：韩信子@ShowMeAI 教程地址：http://www.showmeai.tech/tutorials/83 本文地址：http://www.showmeai.tech/article-detail/165 声明：版权所有，转载请联系平台与作者并注明出处 1.最优化理论（Optimality Theory）我们在做事过程中，会希望以最小的代价取得最大的收益。在解决一些工程问
逻辑回归与梯度下降策略之Python实现2022-02-24 23:33:19

逻辑回归与梯度下降策略之Python实现 1. 映射到概率的函数sigmoid2. 返回预测结果值model函数3. 计算损失值cost4. 计算梯度gradient5. 进行参数更新6. 计算精度我们将建立一个逻辑回归模型来预测一个学生是否被大学录取。假设你是一个大学系的管理员，你想根据两次考试的
为什么GBDT需要使用损失函数的负梯度去拟合一个新的回归树？2022-02-24 22:04:38

因为GBDT是个加法模型，每往模型里面加一个回归树的时候，都要保证loss下降，这样结果更加准确，不然不如不加。
一文搞懂NLP中的对抗训练FGSM/FGM/PGD/FreeAT/YOPO/FreeLB/SMART2022-02-24 22:02:58

原地址本文主要串烧了FGSM, FGM, PGD, FreeAT, YOPO, FreeLB, SMART这几种对抗训练方法，希望能使各位大佬炼出的丹药更加圆润有光泽，一颗永流传对抗训练是一种引入噪声的训练方式，可以对参数进行正则化，提升模型鲁棒性和泛化能力。对抗训练的假设是：给输入加上扰动之后，输出分布
激活函数简介2022-02-24 21:59:42

1、什么是激活函数？单一神经元模型展示：神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值，并将输入值传入下一层，输入层神经元节点会将属性值直接传递给下一层（隐层或输出层）。在多层神经网络中，上节点的输出和下层节点的输入之间具有一个函数关系，这个函数
jmeter模拟梯度加压2022-02-23 09:00:07

https://jmeter-plugins.org/downloads/old/ 到网址下载JMeterPlugins-Standard-1.4.0.zip，解压lib中jar包剪切到jmeter目录的lib/ext中即可在线程创建中看见
归一化：Layer Normalization、Batch Normalization2022-02-22 22:33:09

归一化的核心思想是把一组数据转化为均值为 0，方差为 1 的数据，使得训练数据在训练过程中尽可能的保持和测试数据拥有相同的分布。一方面，这样可以减少数据的偏差，避免在训练过程中出现梯度爆炸或是梯度消失的问题；另一方面，这也是确保模型测试性能的重要假设之一。
空域和频域2022-02-20 11:31:14

前言最近在看 games101，光栅化部分讲到空域和频域，对我来说有点抽象，图像和两个域的关系无法联系起来，所以额外去搜索简单理解下。空域图对应图像的灰度值，频域图（频谱图）表示灰度梯度变化值，中心越亮，代表低频的点越多，图像梯度变化越小，图像就越柔和。把频谱图中的高频删除，则图像就会丢
损失函数与梯度下降2022-02-16 18:04:48

什么是损失函数损失函数（Loss Function）也称代价函数（Cost Function)，用来度量预测值与实际值之间的差异公式：其中E即使损失函数，y表示真实值，y'表示预测值，损失函数即使预测值与实际值之间的差损失函数的作用度量决策函数内f(x)和实际值之间的差异作为模型性能参考。损失数值越
深度学习面试的一些题目2022-02-16 15:34:48

整体回答得都比较简略，可以起到提纲挈领的作用，但是还需要继续深化。解释Adam优化器的概念。答：Adam结合了两个想法来改善收敛性：每个参数更新可加快收敛速度；动量可避免卡在鞍点上。为什么必须在神经网络中引入非线性？答：否则，我们将获得一个由多个线性函数组成的线性函数，那么
几种常见的优化算法2022-02-15 18:01:42

阅读目录 1. 梯度下降法（Gradient Descent） 2. 牛顿法和拟牛顿法（Newton's method & Quasi-Newton Methods） 3. 共轭梯度法（Conjugate Gradient） 4. 启发式优化方法 5. 解决约束优化问题——拉格朗日乘数法　　我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题，
吴恩达机器学习系列1——单变量线性回归2022-02-10 21:03:06

　　今天是第二部分——单变量线性回归，即监督学习中基于单个特征输入的线性回归算法。该部分主要了解的内容是单变量线性回归算法的模型表示，损失函数以及用于求解的梯度下降方法，这实际上也展示了一个完整的监督学习过程。 1、Model Representation 在了解模型表示
梯度下降法2022-02-10 20:31:51

梯度下降法神经网络是怎样学习的？算法会调整权重和偏差值，训练好后我们可以给更多它未见过的图像进行测试将每个输出激活值，与想要的值之间的差的平方加起来，称之为训练单个样本的“代价” 注意下，网络能对图像进行正确的分类时，这个平分和就比较小，如果网络找不着点，这个平分
第三讲 Numpy理解各种梯度下降等优化算法2022-02-09 13:31:42

Numpy理解各种梯度下降等优化算法一本节课程介绍 1.1 知识点 1、优化算法的基本介绍； 2、梯度下降算法的实现； 3、随机梯度下降的实现； 4、其他优化算法的对比；二课程内容 2.1 优化算法基本介绍优化算法常用在最优化模型上，使得模型的损失值为最小。经典的优化算法分为直接法和
PyTorch 介绍 | AUTOMATIC DIFFERENTIATION WITH TORCH.AUTOGRAD2022-02-08 09:32:33

训练神经网络时，最常用的算法就是反向传播。在该算法中，参数（模型权重）会根据损失函数关于对应参数的梯度进行调整。为了计算这些梯度，PyTorch内置了名为 torch.autograd 的微分引擎。它支持任意计算图的自动梯度计算。一个最简单的单层神经网络，输入 x，参数 w 和 b，某个损失函数。它可

首页 < 2 3 4 5 6 7 8 > 尾页

ICode9

mmdetection训练出现nan2022-03-27 14:33:07

大二寒假摸鱼报告2022-03-19 14:33:49

Pytorch中with torch.no_grad()或@torch.no_grad() 用法2022-03-19 10:31:43

torch.optim optimizer函数2022-03-08 12:35:24

如何使用梯度裁剪（Gradient Clipping）避免梯度爆炸2022-03-06 14:03:13

图像处理-梯度计算2022-03-05 22:34:39

Lesson 13.3 梯度不平稳性与Glorot条件2022-03-02 19:30:51

动手深度学习笔记（二十二）4.8. 数值稳定性和模型初始化2022-03-01 19:58:00

人工智能、机器学习和模式识别以及神经网络2022-03-01 10:06:44

深度学习入门：SGD2022-03-01 10:06:25

图解AI数学基础 | 微积分与最优化2022-02-25 01:04:18

逻辑回归与梯度下降策略之Python实现2022-02-24 23:33:19

为什么GBDT需要使用损失函数的负梯度去拟合一个新的回归树？2022-02-24 22:04:38

一文搞懂NLP中的对抗训练FGSM/FGM/PGD/FreeAT/YOPO/FreeLB/SMART2022-02-24 22:02:58

激活函数简介2022-02-24 21:59:42

jmeter模拟梯度加压2022-02-23 09:00:07

归一化：Layer Normalization、Batch Normalization2022-02-22 22:33:09

空域和频域2022-02-20 11:31:14

损失函数与梯度下降2022-02-16 18:04:48

深度学习面试的一些题目2022-02-16 15:34:48

几种常见的优化算法2022-02-15 18:01:42

吴恩达机器学习系列1——单变量线性回归2022-02-10 21:03:06

梯度下降法2022-02-10 20:31:51

第三讲 Numpy理解各种梯度下降等优化算法2022-02-09 13:31:42

PyTorch 介绍 | AUTOMATIC DIFFERENTIATION WITH TORCH.AUTOGRAD2022-02-08 09:32:33