梯度

【Kaggle】如何有效避免OOM(out of memory)和漫长的炼丹过程2022-07-20 20:00:38

本文介绍一些避免transformers的OOM以及训练等流程太漫长的方法，主要参考了kaggle notebook Optimization approaches for Transformers | Kaggle，其中梯度累积Gradient Accumulation，冻结Freezing已经在之前的博客中介绍过，本文会依次介绍混合精度训练Automatic Mixed Precision, 8-b
【Kaggle】如何有效避免OOM和漫长的炼丹过程2022-07-19 22:35:11

本文介绍一些避免transformers的OOM以及训练等流程太漫长的方法，主要参考了kaggle notebook Optimization approaches for Transformers | Kaggle，其中梯度累积Gradient Accumulation，冻结Freezing已经在之前的博客中介绍过，本文会依次介绍混合精度训练Automatic Mixed Precision, 8-b
神经网络不收敛2022-07-19 22:34:12

一般来说，神经网络不收敛的原因有以下 11 种原因：忘记对你的数据进行归一化忘记检查输出结果没有对数据进行预处理没有使用任何的正则化方法使用了一个太大的 batch size 使用一个错误的学习率在最后一层使用错误的激活函数网络包含坏的梯度网络权重没有正确的初始化使用
【Deep Learning】优化深度神经网络2022-07-16 23:09:27

本文为吴恩达 Deep Learning 笔记深度学习的实用层面概念训练 / 验证 / 测试： Training Set 训练集 Development Set 验证集 Test Set 测试集偏差 / 方差： Bias 偏差 Variance 方差 Underfitting 欠拟合 Overfitting 过拟合 Optimal Error / Bayes Error 理想误差 / 贝叶斯
【Heskey带你玩模拟】凸优化笔记2022-07-15 16:04:15

优化：从一个可行解的集合(满足约束的可行解)中，寻找出最优的元素 Basic Concept 条件数：\(Ax=B\) 中 \(||A||\cdot||A^{-1}||\) 物理意义：线程方程组的解对b中的误差或不确定度的敏感性的度量（该数量在数值计算中的容易程度的衡量，低条件数是良态的） 1. 梯度下降梯度下降又称最速下降法
李宏毅机器学习-回归2022-07-14 01:00:10

task2 回归找到一个Function，通过这个Function预测出一个数值，如根据股票走势预测明天的股票情况，根据宝可梦的属性预测它的CP值 2.1 线性模型： input x: featrue w: weight b: bias 2.2 损失函数(Loss Function) 损失函数的作用是衡量参数的好坏线性模型中损失函数用真实的output
特征降维以及对比正规方程法和梯度下降法2022-07-08 17:36:13

特征降维通过定义一个新的特征，可以得到一个更好的模型对于一些不适合使用线性拟合方式的例子，可以通过使用将一个参数即面积的平方，立方看做不同的参数，然后将其看做多元线性拟合，但是其中就需要注意特征缩放了正规方程法单元线性回归：对于线性函数，只需要对
线性回归算法2022-07-04 14:36:51

预测函数单变量线性回归：\(h{_\theta(x)} = \theta{_0} + \theta{_1}x\)；令\(x_0 = 1\)；则\(h{_\theta(x)} = \theta{_0}x_0 + \theta{_1}x_1\) ；多变量线性回归：\({{h}_{\theta }}\left( x \right)={{\theta }_{0}}{{x}_{0}}+{{\theta }_{1}}{{x}_{1}}+{{\theta }_{2}}{{x}_
12、优化算法2022-06-27 16:34:25

在机器学习算法中，对于很多监督学习模型，需要对原始的模型构建损失函数，之后通过优化算法对损失函数进行优化，寻找到最优的参数。求解机器学习参数的优化算法中，使用较多的是基于梯度下降的优化算法(Gradient Descent, GD)，梯度下降法的含义是通过当前点的梯度方向寻找到新的迭代点。基
最小二乘法2022-06-27 14:00:27

普通最小二乘法参考 https://zhuanlan.zhihu.com/p/62018131 在批量梯度下降中讨论了，如何利用梯度下降的方式，如何一步一步寻找到损失函数的最小值，得到最佳拟合的，这里我们继续讨论线性拟合问题，这次尝试用最小二乘法直接求解，就是说我们不用从山顶寻找梯度一
分布式机器学习：同步并行SGD算法的实现与复杂度分析（PySpark）2022-06-26 11:32:12

1 分布式机器学习概述大规模机器学习训练常面临计算量大、训练数据大（单机存不下）、模型规模大的问题，对此分布式机器学习是一个很好的解决方案。 1）对于计算量大的问题，分布式多机并行运算可以基本解决。不过需要与传统HPC中的共享内存式的多线程并行运算（如OpenMP）以及CPU-GPU计算架构
数值优化：经典随机优化算法及其收敛性与复杂度分析2022-06-22 21:36:39

1 随机优化算法概述随着大数据的出现，确定性优化算法的效率逐渐称为瓶颈。为了说明这一点，我们来看一个用梯度下降法求解线性回归的例子。给定训练样本\(D = \{(x_i, y_i)\}_{i=1}^n\)，线性回归的目标函数如下： \[f(w) = \frac{1}{n}\sum_{i=1}^nf_i(w)= \frac{1}{n}\sum_{i=1}^n(w^
GBDT回归算法2022-06-14 20:02:45

文章转载自https://zhuanlan.zhihu.com/p/81016622 1. GBDT简介 Boosting、Bagging和Stacking是集成学习(Ensemble Learning)的三种主要方法。Boosting是一族可将弱学习器提升为强学习器的算法，不同于Bagging、Stacking方法，Boosting训练过程为串联方式，弱学习器的训练是有顺序的，每
10个梯度下降优化算法+备忘单2022-06-14 18:01:52

原标题 | 10 Gradient Descent Optimisation Algorithms + Cheat Sheet 作者 | Raimi Karim in Towards Data Science 译者 | 斯蒂芬•二狗子（沈阳化工大学）、intelLigenJ（算法工程师）、星期五、莱特•诺顿、沧海一升本文编辑：王立鱼英语原文：https://towardsdatascience.com/10-grad
深度学习实践32022-06-13 11:33:40

这次利用随机梯度下降，随机梯度下降法在神经网络中被证明是有效的。效率较低(时间复杂度较高)，学习性能较好。随机梯度下降和梯度下降相比区别在于： 1、损失函数由cost()更改为loss()。cost是计算所有训练数据的损失，loss是计算一个训练函数的损失。 2、梯度函数gradient()由计算所有
contrastive loss对比损失函数及梯度计算2022-06-12 12:33:27

Contrastive loss 最初源于 Yann LeCun “Dimensionality Reduction by Learning an Invariant Mapping” CVPR 2006。该损失函数主要是用于降维中，即本来相似的样本，在经过降维（特征提取）后，在特征空间中，两个样本仍旧相似；而原本不相似的样本，在经过降维后，在特征空间中，两个样本仍旧
数值优化：经典一阶确定性算法及其收敛性分析2022-06-11 22:31:53

我们在上一篇博客《数值优化：算法分类及收敛性分析基础》介绍了数值优化算法的历史发展、分类及其收敛性/复杂度分析基础。本篇博客我们重点关注一阶确定性优化算法及其收敛性分析。 1 梯度下降法 1.1 算法描述梯度下降法[1]是最古老的一阶方法，由Cauchy在1847年提出。梯度下降法
莫凡 pytorch2022-06-11 18:02:26

1 什么是神经网络（机器学习）输入层、隐藏层、输出层首先由大量得带有标签的图片进行训练，当预测出错误的结果时，由正确结果和错误结果之间的误差进行反馈，不断进行调整，以获得更好的结果通过激活函数对不同神经元的重要性进行调整，使得网络得到想要的结果 2 神经网络：梯度下
机器学习理论整理2022-06-08 03:00:18

机器学习新手小白，在学习过程中积累基础知识概念，先整理出来，当作纪念自己学习的脚步关于模型概况无监督学习：训练样本不需要人工标注。有监督学习：使用人工标注的训练集训练。迁移学习：将一个任务训练好的参数拿到另一个任务作为初始参数。 val集：用于验证是否过拟合调节训练
Batch Normalization (批标准化）2022-06-02 22:03:02

Batch Normalization 为了解决深度网络训练时可能会出现的梯度消失、梯度爆炸或者，导致收敛速度变慢的问题，使用批标准化的方法将每层的数据都规范到相同的均值和方差，批标准化可以解决 internal convraiate shift，通过适当的使用较大的学习率，减少训练时间; 能够解决梯度消失和爆炸
深度学习与CV教程(6) | 神经网络训练技巧 (上)2022-06-01 00:33:38

作者：韩信子@ShowMeAI 教程地址：http://www.showmeai.tech/tutorials/37 本文地址：http://www.showmeai.tech/article-detail/265 声明：版权所有，转载请联系平台与作者并注明出处收藏ShowMeAI查看更多精彩内容本系列为斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for C
深度学习与CV教程(7) | 神经网络训练技巧 (下)2022-06-01 00:31:09

作者：韩信子@ShowMeAI 教程地址：http://www.showmeai.tech/tutorials/37 本文地址：http://www.showmeai.tech/article-detail/266 声明：版权所有，转载请联系平台与作者并注明出处收藏ShowMeAI查看更多精彩内容本系列为斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for C
【译】通俗解释泊松融合即opencv中的seamless copy2022-05-29 16:33:08

原文链接 https://erkaman.github.io/posts/poisson_blending.html 本文将给出泊松融合的通俗解释。这个技术能将两张图无缝融合在一起。可以保证插入的图像的颜色和原图完美融合。这样在将亮的图像copy到暗的图像中去的时候，算法会将亮的图像转换成一个暗的图像。如下所示为
机器学习-GBDT算法理解2022-05-28 10:01:08

GB and AdaBoost 梯度提升（Gradient boosting）是一种用于回归、分类和排序任务的机器学习技术，属于Boosting算法族的一部分。Boosting是一族可将弱学习器提升为强学习器的算法，属于集成学习（ensemble learning）的范畴。 Boosting方法基于这样一种思想：对于一个复杂任务来说，将多个专家的判
梯度下降2022-05-26 00:00:24

本文转载于：https://www.cnblogs.com/pinard/p/5970503.html 　　　　在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。 1. 梯度　　　　在微积分里面，对多元函

首页 < 1 2 3 4 5 6 7 8 > 尾页

ICode9

【Kaggle】如何有效避免OOM(out of memory)和漫长的炼丹过程2022-07-20 20:00:38

【Kaggle】如何有效避免OOM和漫长的炼丹过程2022-07-19 22:35:11

神经网络不收敛2022-07-19 22:34:12

【Deep Learning】优化深度神经网络2022-07-16 23:09:27

【Heskey带你玩模拟】凸优化笔记2022-07-15 16:04:15

李宏毅机器学习-回归2022-07-14 01:00:10

特征降维以及对比正规方程法和梯度下降法2022-07-08 17:36:13

线性回归算法2022-07-04 14:36:51

12、优化算法2022-06-27 16:34:25

最小二乘法2022-06-27 14:00:27

分布式机器学习：同步并行SGD算法的实现与复杂度分析（PySpark）2022-06-26 11:32:12

数值优化：经典随机优化算法及其收敛性与复杂度分析2022-06-22 21:36:39

GBDT回归算法2022-06-14 20:02:45

10个梯度下降优化算法+备忘单2022-06-14 18:01:52

深度学习实践32022-06-13 11:33:40

contrastive loss对比损失函数及梯度计算2022-06-12 12:33:27

数值优化：经典一阶确定性算法及其收敛性分析2022-06-11 22:31:53

莫凡 pytorch2022-06-11 18:02:26

机器学习理论整理2022-06-08 03:00:18

Batch Normalization (批标准化）2022-06-02 22:03:02

深度学习与CV教程(6) | 神经网络训练技巧 (上)2022-06-01 00:33:38

深度学习与CV教程(7) | 神经网络训练技巧 (下)2022-06-01 00:31:09

【译】通俗解释泊松融合 即opencv中的seamless copy2022-05-29 16:33:08

机器学习-GBDT算法理解2022-05-28 10:01:08

梯度下降2022-05-26 00:00:24

【译】通俗解释泊松融合即opencv中的seamless copy2022-05-29 16:33:08