ICode9

精准搜索请尝试: 精确搜索
  • 【Kaggle】如何有效避免OOM(out of memory)和漫长的炼丹过程2022-07-20 20:00:38

    本文介绍一些避免transformers的OOM以及训练等流程太漫长的方法,主要参考了kaggle notebook Optimization approaches for Transformers | Kaggle,其中梯度累积Gradient Accumulation,冻结Freezing已经在之前的博客中介绍过,本文会依次介绍混合精度训练Automatic Mixed Precision, 8-b

  • 【Kaggle】如何有效避免OOM和漫长的炼丹过程2022-07-19 22:35:11

    本文介绍一些避免transformers的OOM以及训练等流程太漫长的方法,主要参考了kaggle notebook Optimization approaches for Transformers | Kaggle,其中梯度累积Gradient Accumulation,冻结Freezing已经在之前的博客中介绍过,本文会依次介绍混合精度训练Automatic Mixed Precision, 8-b

  • 神经网络不收敛2022-07-19 22:34:12

    一般来说,神经网络不收敛的原因有以下 11 种原因: 忘记对你的数据进行归一化 忘记检查输出结果 没有对数据进行预处理 没有使用任何的正则化方法 使用了一个太大的 batch size 使用一个错误的学习率 在最后一层使用错误的激活函数 网络包含坏的梯度 网络权重没有正确的初始化 使用

  • 【Deep Learning】优化深度神经网络2022-07-16 23:09:27

    本文为吴恩达 Deep Learning 笔记 深度学习的实用层面 概念 训练 / 验证 / 测试: Training Set 训练集 Development Set 验证集 Test Set 测试集 偏差 / 方差: Bias 偏差 Variance 方差 Underfitting 欠拟合 Overfitting 过拟合 Optimal Error / Bayes Error 理想误差 / 贝叶斯

  • 【Heskey带你玩模拟】凸优化笔记2022-07-15 16:04:15

    优化:从一个可行解的集合(满足约束的可行解)中,寻找出最优的元素 Basic Concept 条件数:\(Ax=B\) 中 \(||A||\cdot||A^{-1}||\) 物理意义:线程方程组的解对b中的误差或不确定度的敏感性的度量(该数量在数值计算中的容易程度的衡量,低条件数是良态的) 1. 梯度下降 梯度下降又称最速下降法

  • 李宏毅机器学习-回归2022-07-14 01:00:10

    task2 回归 找到一个Function,通过这个Function预测出一个数值,如根据股票走势预测明天的股票情况,根据宝可梦的属性预测它的CP值 2.1 线性模型: input x: featrue w: weight b: bias 2.2 损失函数(Loss Function) 损失函数的作用是衡量参数的好坏 线性模型中损失函数用真实的output

  • 特征降维以及对比正规方程法和梯度下降法2022-07-08 17:36:13

    特征降维   通过定义一个新的特征,可以得到一个更好的模型 对于一些不适合使用线性拟合方式的例子,可以通过使用将一个参数即面积的平方,立方看做不同的参数,然后将其看做多元线性拟合,但是其中就需要注意特征缩放了           正规方程法   单元线性回归: 对于线性函数,只需要对

  • 线性回归算法2022-07-04 14:36:51

    预测函数 单变量线性回归:\(h{_\theta(x)} = \theta{_0} + \theta{_1}x\);令\(x_0 = 1\);则\(h{_\theta(x)} = \theta{_0}x_0 + \theta{_1}x_1\) ; 多变量线性回归:\({{h}_{\theta }}\left( x \right)={{\theta }_{0}}{{x}_{0}}+{{\theta }_{1}}{{x}_{1}}+{{\theta }_{2}}{{x}_

  • 12、优化算法2022-06-27 16:34:25

    在机器学习算法中,对于很多监督学习模型,需要对原始的模型构建损失函数,之后通过优化算法对损失函数进行优化,寻找到最优的参数。求解机器学习参数的优化算法中,使用较多的是基于梯度下降的优化算法(Gradient Descent, GD),梯度下降法的含义是通过当前点的梯度方向寻找到新的迭代点。基

  • 最小二乘法2022-06-27 14:00:27

    普通最小二乘法 参考   https://zhuanlan.zhihu.com/p/62018131 在批量梯度下降中讨论了,如何利用梯度下降的方式,如何一步一步寻找到损失函数的最小值,得到最佳拟合的  ,这里我们继续讨论线性拟合问题,这次尝试用最小二乘法直接求解  ,就是说我们不用从山顶寻找梯度一

  • 分布式机器学习:同步并行SGD算法的实现与复杂度分析(PySpark)2022-06-26 11:32:12

    1 分布式机器学习概述 大规模机器学习训练常面临计算量大、训练数据大(单机存不下)、模型规模大的问题,对此分布式机器学习是一个很好的解决方案。 1)对于计算量大的问题,分布式多机并行运算可以基本解决。不过需要与传统HPC中的共享内存式的多线程并行运算(如OpenMP)以及CPU-GPU计算架构

  • 数值优化:经典随机优化算法及其收敛性与复杂度分析2022-06-22 21:36:39

    1 随机优化算法概述 随着大数据的出现,确定性优化算法的效率逐渐称为瓶颈。为了说明这一点,我们来看一个用梯度下降法求解线性回归的例子。 给定训练样本\(D = \{(x_i, y_i)\}_{i=1}^n\),线性回归的目标函数如下: \[f(w) = \frac{1}{n}\sum_{i=1}^nf_i(w)= \frac{1}{n}\sum_{i=1}^n(w^

  • GBDT回归算法2022-06-14 20:02:45

    文章转载自https://zhuanlan.zhihu.com/p/81016622 1. GBDT简介 Boosting、Bagging和Stacking是集成学习(Ensemble Learning)的三种主要方法。Boosting是一族可将弱学习器提升为强学习器的算法,不同于Bagging、Stacking方法,Boosting训练过程为串联方式,弱学习器的训练是有顺序的,每

  • 10个梯度下降优化算法+备忘单2022-06-14 18:01:52

    原标题 | 10 Gradient Descent Optimisation Algorithms + Cheat Sheet 作者 | Raimi Karim in Towards Data Science 译者 | 斯蒂芬•二狗子(沈阳化工大学)、intelLigenJ(算法工程师)、星期五、莱特•诺顿、沧海一升 本文编辑:王立鱼 英语原文:https://towardsdatascience.com/10-grad

  • 深度学习实践32022-06-13 11:33:40

    这次利用随机梯度下降,随机梯度下降法在神经网络中被证明是有效的。效率较低(时间复杂度较高),学习性能较好。 随机梯度下降和梯度下降相比区别在于: 1、损失函数由cost()更改为loss()。cost是计算所有训练数据的损失,loss是计算一个训练函数的损失。 2、梯度函数gradient()由计算所有

  • contrastive loss对比损失函数及梯度计算2022-06-12 12:33:27

    Contrastive loss 最初源于 Yann LeCun “Dimensionality Reduction by Learning an Invariant Mapping” CVPR 2006。 该损失函数主要是用于降维中,即本来相似的样本,在经过降维(特征提取)后,在特征空间中,两个样本仍旧相似;而原本不相似的样本,在经过降维后,在特征空间中,两个样本仍旧

  • 数值优化:经典一阶确定性算法及其收敛性分析2022-06-11 22:31:53

    我们在上一篇博客《数值优化:算法分类及收敛性分析基础》介绍了数值优化算法的历史发展、分类及其收敛性/复杂度分析基础。本篇博客我们重点关注一阶确定性优化算法及其收敛性分析。 1 梯度下降法 1.1 算法描述 梯度下降法[1]是最古老的一阶方法,由Cauchy在1847年提出。 梯度下降法

  • 莫凡 pytorch2022-06-11 18:02:26

    1 什么是神经网络(机器学习) 输入层、隐藏层、输出层 首先由大量得带有标签的图片进行训练,当预测出错误的结果时,由正确结果和错误结果之间的误差进行反馈,不断进行调整,以获得更好的结果 通过激活函数对不同神经元的重要性进行调整,使得网络得到想要的结果 2 神经网络:梯度下

  • 机器学习理论整理2022-06-08 03:00:18

    机器学习新手小白,在学习过程中积累基础知识概念,先整理出来,当作纪念自己学习的脚步 关于模型概况 无监督学习:训练样本不需要人工标注。 有监督学习:使用人工标注的训练集训练。 迁移学习:将一个任务训练好的参数拿到另一个任务作为初始参数。 val集:用于验证是否过拟合调节训练

  • Batch Normalization (批标准化)2022-06-02 22:03:02

    Batch Normalization 为了解决深度网络训练时可能会出现的梯度消失、梯度爆炸或者,导致收敛速度变慢的 问题,使用批标准化的方法将每层的数据都规范到相同的均值和方差, 批标准化可以解决 internal convraiate shift,通过适当的使用较大的学习率,减少训练时间; 能够解决梯度消失和 爆炸

  • 深度学习与CV教程(6) | 神经网络训练技巧 (上)2022-06-01 00:33:38

    作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-detail/265 声明:版权所有,转载请联系平台与作者并注明出处 收藏ShowMeAI查看更多精彩内容 本系列为 斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for C

  • 深度学习与CV教程(7) | 神经网络训练技巧 (下)2022-06-01 00:31:09

    作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/37 本文地址:http://www.showmeai.tech/article-detail/266 声明:版权所有,转载请联系平台与作者并注明出处 收藏ShowMeAI查看更多精彩内容 本系列为 斯坦福CS231n 《深度学习与计算机视觉(Deep Learning for C

  • 【译】通俗解释泊松融合 即opencv中的seamless copy2022-05-29 16:33:08

    原文链接 https://erkaman.github.io/posts/poisson_blending.html    本文将给出泊松融合的通俗解释。这个技术能将两张图无缝融合在一起。可以保证插入的图像的颜色和原图完美融合。这样在将亮的图像copy到暗的图像中去的时候,算法会将亮的图像转换成一个暗的图像。如下所示为

  • 机器学习-GBDT算法理解2022-05-28 10:01:08

    GB and AdaBoost 梯度提升(Gradient boosting)是一种用于回归、分类和排序任务的机器学习技术,属于Boosting算法族的一部分。Boosting是一族可将弱学习器提升为强学习器的算法,属于集成学习(ensemble learning)的范畴。 Boosting方法基于这样一种思想:对于一个复杂任务来说,将多个专家的判

  • 梯度下降2022-05-26 00:00:24

    本文转载于:https://www.cnblogs.com/pinard/p/5970503.html     在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。 1. 梯度     在微积分里面,对多元函

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有