ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

吴恩达机器学习2——单变量线性回归

2021-08-01 18:00:40  阅读:165  来源: 互联网

标签:function 吴恩达 变量 梯度 下降 最小值 线性 函数


吴恩达机器学习2——单变量线性回归

监督学习工作模式
在这里插入图片描述
训练集中同时给出了输入输出,即人为标注的“正确结果”喂给学习算法,得到一个函数h,h
可以根据输入的x得到一个y,因此h是x到y的一个映射。
一种可能的表达方式为:
hθ(x)=θ0+θ1x
因为只含有一个特征/输入变量,因此这样的问题叫作单变量线性回归问题。
x:特征/输入变量
上式中, θ为参数, θ 的变化才决定了输出结果,不同以往,这里的 x 被我们视作已知(不论是数据集还是预测时的输入),所以怎样解得 θ以更好地拟合数据,成了求解该问题的最终问题。

2.2代价函数(cost function)

损失函数(loss function):计算单个样本的误差
代价函数(cost function):计算整个训练集所有损失函数之和的平均值

 我们的目的在于求解预测结果h最接近实际结果y时θ的取值。
为求解最小值,引入代价函数(cost function)的概念
在这里插入图片描述
问题转化为求解J(θ0,θ1)的最小值
系数1/2不影响结果,是为了在应用梯度下降时,平方的导数抵消1/2,便于计算。

假设θ0=0,得到的hθ(x)和J(θ1)如下
在这里插入图片描述

以此类推,θ≠0时
在这里插入图片描述

可以看出仍存在一点使J(θ0,θ1)最小.

2.5梯度下降(gradient descent)

梯度下降背后的思想是:开始时,我们随机选择一个参数组合(θ0,θ1,…θn)即起始点,计算代价函数,然后寻找下一个能使得代价函数下降最多的参数组合。不断迭代,直到找到一个局部最小值(local minimum),由于下降的情况只考虑当前参数组合周围的情况,所以无法确定当前的局部最小值是否就是全局最小值(global minimum),不同的初始参数组合,可能会产生不同的局部最小值。
在这里插入图片描述
批量梯度下降(batch gradient descent)算法的公式为:

:=:赋值操作符
公式中,学习率α决定了参数变化的速率即“走多少距离”,而偏导这部分决定了下降到方向即“下一步往哪里走”

实现梯度下降算法的微妙之处是,在这个表达式中,如果你要更新这个等式,你需要同时更新θ0和θ1,我的意思是在这个等式中,我们要这样像左边一样更新而不是右边,否则结果上会有出入,原因不做细究在这里插入图片描述

2.6梯度下降直观理解

在这里插入图片描述
无论初始点是在左边还是右边,通过梯度下降法,θ1都会不断向局部最小值移动,直到收敛。

对于学习率α,需要选择一个合适的值才能使梯度下降法运行良好。
α太小时收敛的太慢,需要迭代很多次,太大时可能越过最低点,甚至无法收敛
学习率不需要在运行梯度下降法时进行动态改变,随着斜率接近0,代价函数的变化幅度会越来越小,直至为0.
在这里插入图片描述

2.7线性回归中的梯度下降

在这里插入图片描述
在这里插入图片描述
这种梯度下降的算法称之为批量梯度下降算法,主要特点:

在梯度下降的每一步中,我们都用到了所有的训练样本
在梯度下降中,在计算微分求导项时,我们需要进行求和运算,需要对所有m个训练样本求和

线性回归只有一个全局最优解,所以函数一定可以收敛到全局最小值(α不可以过大),J函数被称为凸函数,线性回归函数求解最小值问题属于凸函数优化问题。

标签:function,吴恩达,变量,梯度,下降,最小值,线性,函数
来源: https://blog.csdn.net/wxb_cxydad/article/details/119299940

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有