标签:训练 方差 Gradient 梯度 P8 P5 rate eta 模型
P5-P8 误差的来源 and 梯度下降
bias(偏差)+variance(方差)
真实的模型和训练的模型之间的误差是偏差和方差导致的
1.评估bias
\(假设x的平均值是\mu,方差\sigma^2\)
取N个样本点,计算平均值\(m,m\neq\mu\)
对很多组的m求期望等于\(\mu\)
m分布对于\(\mu\)的方差取决于样本点的个数,N越小越逆闪
2.评估variance
\(s^2=\frac{1}{N}\sum_n(x^n-m)^2\)
\(E[s^2]=\frac{N-1}{N}\sigma^2\neq\sigma^2\)
简单的模型偏差是比较大的,复杂的模型偏差小,复杂模型的域可能包含目标
简单的模型方差是比较小的,复杂的模型方差大,散布开
bias大重新考虑模型
variance大考虑数据集的调整
交叉验证
将训练集分为两部分,训练集和检验集,
1.用训练集训练模型,然后再验证集上比较,确定较好的模型
2.用全部的训练集训练确定的模型
3.用测试集测试
N-折交叉验证
将训练集分成N份
1.N-1Train,1val
2.用不同的model去训练选出最好的
3.用全部的Training set去训练选出的model
Gradient Descent
Tip 1: Tuning your learning rates
Adaptive Learning Rates
逐渐减小learning rate \(\eta^t=\eta/\sqrt{t+1}\)
不同的参数设计不同的rate
Adagrad
Learning rate= \(\eta^t\)除以过去所有微分的平均值
得\(w^{t+1}=w^t-\frac{\eta}{\sqrt{\sum_{i=0}^t(g^i)^2}}g^t\)
the best step is \(\frac{Fist derivative}{Second derivative}\)
Tip 2 : Stochastic Gradient Descent
每次只选一个example(部分data)来算Lost function ,G-D走了一步,S-G-D走很多很多步
但每次走的方向和全局梯度方向是不一致的
Tip 3 : Feature Scaling
让不同的参数的Scaling相同
R个example, 对每一个example的参数i取平均值\(\sigma_i\)
\(x_i^r<-\frac{x_i^r-m_i}{\sigma_i}\)
Gradient Descent 的 learning rate要小,否则就不能保证Lost function在减小。
数学证明的关键思路:函数在某一点的泰勒展开后,只有x无限趋于这个点时,才能用多项式插(一阶展开就是Gradient Descent的形式了),但Learning rate 太大的时候,x距离这一点就不足够近了。
标签:训练,方差,Gradient,梯度,P8,P5,rate,eta,模型 来源: https://www.cnblogs.com/hnwang98/p/15168672.html
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。