Regression:回归模型的输出为一个标量。(例如股票市场预测、自动驾驶的方向盘角度、商品推荐中的购买可能性预测、宝可梦进化后战斗力预测) 一、宝可梦战斗力预测 第一步:模型 确定使用的模型后,不同的参数空间内取值的自由组合构成模型集合。 第二步:衡量模型的能力 符号解释:上标表示
【李宏毅深度强化学习笔记】1、深度强化学习算法 策略梯度方法(Policy Gradient) https://blog.csdn.net/ACL_lihan/article/details/104020259 【李宏毅深度强化学习笔记】2、深度强化学习 Proximal Policy Optimization (PPO) 算法 https://blog.csdn.net/ACL_lihan/article/de
如果没有reward,怎么办 和环境互动,但不能得到reward,只能看着expert的demonstration学习。 判断开车撞人扣多少分很难,收集人开车的例子,人对话的例子是比较简单的。 不知道怎么定reward,但可以收集范例。 1.Behavior Cloning expert做什么,机器就做什么一样的事情。 收集expert的
1.概率分布 由于前面学习的是回归,因此我们通过回归的方法来查看概率分布 分类是class 1 的时候结果是1 分类为class 2的时候结果是-1; 测试时,如果结果接近1的是class1 ,如果结果接近-1的是class2。 但是呢,这只是看起来很美丽,但是如果当结果远远大于1的时候,他的分类应该是cla
第二课 regression:output a scalar 一个例子: task:预测进化后的宝可梦的cp值,则函数的输入则是宝可梦进化前的各种资讯,输出是进化后的cp值 step1:定义一个function set 即model 定义为 y=b+w∗xcpy=b+w*x_{cp}y=b+w∗xcp,即认为进化后的cp值和进化前的cp值有很大的关
正向具体过程: 举例: 反向具体过程: 假设问号项已知,有 所以说反向传播就可以理解为 此时是假设是最后输出层: 假如不是最后输出层,是中间某一层: 继续算下去 一直到输出层为止 从前往后需要太多,所以可以选择直接从后往前算,例子为从5,6先开始,到3,4再往前 总结:
李宏毅机器学习系列-深度学习小贴士是过拟合的错么深度学习的技巧梯度消失ReluMaxout可调节的学习率RMSPropMomentumAdamEarly StoppingRegularizationDropout总结 是过拟合的错么 我们在做深度学习的时候经常会遇到一些问题,比如我们发现测试集上的效果不好,于是我们马上认
3.1 configuration 3.2 寻找最优网络参数 代码示例: from keras.models import Sequential from keras.layers import Dense, Activation # 1.Step 1 model = Sequential() model.add(Dense(input_dim=28*28, output_dim=500)) # Dense是全连接 model.add(Activation('sigmoid'))
李宏毅机器学习系列-深度学习简介深度学习的概况深度学习的步骤前馈神经网络全连接神经网络数字识别分类总结 深度学习的概况 深度学习从2012年的图像识别比赛开始就复苏了,发展越来越快,越来越好,具体他的发展历史可以百度下,可以追溯到很早时期,还有几个大起大落的阶段: 可以
Neighbor Embedding: 通过非线性的方法降维,根据在原先空间中数据点与点之间的关系来降维,也叫做Manifold Learning 流形学习(Manifold Learning) Manifold:高维空间中的低维空间 在欧式空间里面,距离较小的适应,但距离一旦增大就不适应了,如下图:在比较近的点(蓝色)我们可以得到正确
原文链接:https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247490878&idx=4&sn=cbe689f9181a3c3f684ed90e776f7d22&chksm=f9a26fb1ced5e6a725646bee1a7f70f74466903d3b012c1872b532a2d69676b6eb23ad8d3eb5&mpshare=1&scene=
经典入门电子书: Reinforcement Learning: An Introduction 李宏毅深度强化学习(国语)课程: https://www.bilibili.com/video/av24724071/?p=1 上海交大讲义: http://wnzhang.net/tutorials/marl2018/index.html 其他 其他资料介绍: https://zhuanlan.zhihu.com/p/34918639 李宏
李宏毅机器学习笔记连载-07152019学习路径结构学习是什么 学习路径 课程衔接 link 视频衔接 link 结构学习是什么 比起
Machine Learning == Looking for a Function AI过程:用户输入信息,计算机经过处理,输出反馈信息(输入输出信息的形式可以是文字、语音、图像等) 因为从输入到输出的处理不是简单的数学运算,甚至很多时候科学家并不知道如何来实现这个过程,所以需要机器来自主学习。 so, 机器学习的主要工
李宏毅深度学习HW1 PM2.5预测 1.任务内容 根据前9个小时的空气监测情况预测第10个小时的PM2.5含量,即根据黄色部分内容预测红色处值。 训练集:包含台湾丰原地区240天的气象观测资料(取每个月前20天的数据做训练集,12月X20天=240天,每月后10天数据用于测试,对学生不可见),每天的监测
学习打卡内容: 理解决策树以及决策树的几种算法 总结决策树模型结构 理解决策树递归思想 学习信息增益 学习信息增益率 学习ID3算法优缺点 学习C4.5算法优缺点 理解C4.5算法在ID3算法上有什么提升 学习C4.5算法在连续值上的处理 学习决策树如何生成 代码实现决策树 划分数据
方差和偏差 偏差(bias)指的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距,简单讲就是样本拟合效果的好坏 方差(varience)描述的是样本上训练出来的模型在测试集/验证集上的表现 偏差高=欠拟合 方差高= 过拟合 解决高偏差的方法:采用更多隐藏层和隐藏单元
李宏毅机器学习第一次作业 1. 什么是机器学习? 略 2. 中心极限定理、正态分布、最大似然估计 略 3. 线性回归 Loss Function 推导 4. 损失函数和凸函数之间的关系 损失函数,即判断这个网络性能的函数,表示为L(a,y) 5. 全局最优和局部最优 全局最优,理解为整个的最优化,局部最优,找
1、logical 回归与liner 回归的区别 logical 返回值是0到1之间,因为通过了sigmoid函数(函数值0到1)得到的值,具体推导见视频。线性回归返回值可以是任何值 2、逻辑回归推导过程。
李宏毅老师的机器学习课程和吴恩达老师的机器学习课程都是都是ML和DL非常好的入门资料,在YouTube、网易云课堂、B站都能观看到相应的课程视频,接下来这一系列的博客我都将记录老师上课的笔记以及自己对这些知识内容的理解与补充。(本笔记配合李宏毅老师的视频一起使用效果更佳!) Lectu
李宏毅老师的机器学习课程和吴恩达老师的机器学习课程都是都是ML和DL非常好的入门资料,在YouTube、网易云课堂、B站都能观看到相应的课程视频,接下来这一系列的博客我都将记录老师上课的笔记以及自己对这些知识内容的理解与补充。(本笔记配合李宏毅老师的视频一起使用效果更佳!) ML Le
视频指路:https://www.bilibili.com/video/av10590361/?p=10 术语解释:Dimension 维 P(C1):X在class1中比例 P(x|C1):X在class1中出现的可能性 P(C1|x):x属于class1的概率