一、欠/过拟合问题(Under fitting/Overfitting Problem) 欠拟合 拟合偏差非常大,用于预测时误差也会非常大。 过拟合 方差非常大,即拟合曲线与训练数据拟合得非常好以至于曲线非常复杂,导致缺乏足够的数据来约束,不能很好地泛化到新的样本数据中。 解决拟合问题 减少特征的数量
最终目的仍是减少振荡方向(b)的更新幅度,提高前进方向(ω)的更新幅度 引入Sdω和Sdb,如公式表达,由于dω<db,求其均方根作为分母,实现ω的更新幅度大,而b的更新幅度小 注意 1. 使用中为了避免出现√Sdω=0导致除数为0的情况出现,应令√(Sdω+ε) (吴恩达视频中建议ε=1e-8)
对于5个数值的平均值我们可以使用求和均值计算 对于10个数值的平均值我们也可以使用求和均值计算 对于20个数值的平均值,如果存储条件允许,可以考虑使用求和均值计算 但对于50个数值等甚至更多的数值,直接使用求和均值计算,对于内存来说是十分不友好的。 指数加权平均法,即vt = (1-
1. 梯度下降法寻找参数,使训练模型的代价函数值最小。梯度下降法就是对代价函数关于参数θ求偏导,不断迭代(一般由迭代次数限制)。梯度下降法找到的参数可能是局部最优解,而并非全局最优解。 2. 特征缩放以及均值归一化。特征缩放是为了将两个或多个范围不同的特征值缩放至近似的范围,从
吴恩达属实牛逼 大家好哇,新同学都叫我张北海,老同学都叫我老胡,其实是一个人,只是我特别喜欢章北海这个《三体》中的人物,张是错别字。 最近在coursera上重温了吴恩达升级版的《机器学习》课程,当时还写了一个刷课小教程(⬅️直达) 很多同学貌似对cousera都不太了解 Coursera 是世界上
首先要明确的是反向传播的目的 神经网络训练的最终目的,是得到可观的模型参数(如ω,b等)训练参数的方式,就是通过反向传播,使用梯度下降法(一般情况下)改变模型参数。 其原理则是通过最优化损失函数(loss function),即使其导数向0靠近,公式表达为dL/dω,而损失函数L是一个复合函数,则其求导过
符号表示 ω为神经元线性函数的参数 b为神经元线性函数的参数 z为神经元的线性函数输出 g为激活函数 a为z输入下g的输出 前向传播 据此,对于第L层神经元,可以表示为如图公式组
Decision trees 第 1 个问题:Based on the decision tree shown in the lecture, if an animal has floppy ears, a round face shape and has whiskers, does the model predict that it's a cat or not a cat? 【正确】cat Not a cat 【解释】Correct. If you follow the floppy
Practice quiz: Advice for applying machine learning 第 1 个问题:In the context of machine learning, what is a diagnostic? 【正确】A test that you run to gain insight into what is/isn’t working with a learning algorithm. An application of machine learning to m
Practice quiz: Neural Network Training 第 1 个问题:Here is some code that you saw in the lecture: model.compile(loss=BinaryCrossentropy()) For which type of task would you use the binary cross entropy loss function? A classification task that has 3 or mor
Practice quiz: Classification with logistic regression 第 1 个问题:Which is an example of a classification task? 【正确】Based on the size of each tumor, determine if each tumor is malignant (cancerous) or not. Based on a patient's blood pressure, determine
Practice quiz: Supervised vs unsupervised learning 第 1 个问题:Which are the two common types of supervised learning? (Choose two) 【正确】Regression 【解释】Regression predicts a number among potentially infinitely possible numbers. 【不选】Clustering 【正确
1.2 什么是神经网络 卷积神经网络(CNN)——图像 循环神经网络(RNN),全称是长短期记忆网络(LSTM)——自然语言处理(NLP) ReLU 函数 线性整流函数(Linear rectification function),又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function),通常指代以斜坡函数及其变种为代表的
由于之前都是txt记录的,所以可能比较简陋 学算法应学原理,学工程应学应用。 (因为还要自己设计算法 这也是门槛更高的原因吧 上一行转自y总) 调api 调包侠 B站视频链接 过程中待看待理解的博客、文章、概念、疑问 后期会删除 目前边学边补充 或某个重要概念暂时理解不了,会放在这里,
多分类问题的损失函数 误差反向传播,以及通过误差计算偏导,进而计算损失函数值 随机初始化在神经网络中初始值全为0的化会导致各隐藏层激活函数相等,无法学习更多特征
正则化、欠拟合过拟合 正则化在代价函数中加入对每个参数的惩罚变量项可以理解为使得预测函数更加平滑或者边界函数更加平滑,防止由于训练数据少参数多导致的过拟合
1.可以通过一些数学方程进行直接求解 近似于最小二乘法 2.矩阵不可逆 原因: (1)方阵中的两个维度间存在线性变换关系,导致方阵不满秩(奇异矩阵) (2) 特征数量相对于样本数量过大,导致产生的其次方程组不存在唯一解 (3) 解决办法 (1)删除某些特征 (2
1.模型 模型可以理解为一个可以用来描述事件本身或规律的函数,如线性回归(一元线性函数等) 2.代价函数 这里有几个概念: 1、假设函数(Hypotheis) 即用来预测的函数,也可以说是函数模型 2. 参数(Parameters) 即假设函数中引入的参数,即模型参数,不同的参数对应着不同的假
1、训练、开发、测试集划分 开发(dev)集也叫做 (development set),有时称为保留交叉验证集(hold out cross validation set) 大数据时代,7/3分和6/2/2分所有数据集已经不合适了。 我们可以让训练集占比例 更多,开发和测试集占比例更少 2、当开发集和测试集和训练集内容相差很大 不是同一
自动补全与语言模型 overview 你将会: create language model(LM) from text corpus to Estimate probability of word sequences Estimate probability of a word following a sequence of words Apply this concept to autocomplete a sentence with most likely suggestions
几年前就想学习吴恩达的老课-机器学习,学了n次都没有坚持下来。其实很多东西都是这样,开始的时候信誓旦旦,信心满满,慢慢的就泄气了。 每天铺天盖地的深度学习,人工智能听得耳朵都要起茧子了。这算法,那框架,如果不懂最基础的理论,学什么都感觉云里雾里。也没有学明白的通透感。 这个寒假,
今天是第二部分——单变量线性回归,即监督学习中基于单个特征输入的线性回归算法。该部分主要了解的内容是单变量线性回归算法的模型表示,损失函数以及用于求解的梯度下降方法,这实际上也展示了一个完整的监督学习过程。 1、Model Representation 在了解模型表示
吴恩达机器学习&深度学习(英文,理论解释比较清楚) 李沐pytorch(偏实战,详细解读代码) 开始总有一个困难期,不懂的多看多思考多动手 我没有python基础这是硬伤,理论上学起来至少入门不难的,基本一周左右就可以入门 project2中的代码其实没那么难,基本是理解的,就是不会在服务器跑代码,所以第三
监督学习与情感分析 Supervised ML(training) V维特征 出现为1,否则为0,得出V维向量 计数器 包含四个推文的Corpus(语料库) I am happy because I am learning NLP I am happy I am sad,I am not learning NLP I am sad 得到vocabulary I am happy because learning NLP sad not 已
多维特征(Multiple Features) 多元线性回归,即包含多个变量,比如房子的房龄、面积、房间数等,标记如下: 假设函数就变成了: 可以理解为: θ0表示基础价格 θ1为每平方价格,X1为平米数 θ2为每层价格,X2为层数 假设函数简写为: 梯度下降就变成了: 左图是之前单变量时的梯度下降,右图是