ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

李航统计学习方法笔记——泛化误差上界

2020-03-02 10:04:17  阅读:480  来源: 互联网

标签:varepsilon 李航 泛化 ... bi 笔记 exp 2N hat


泛化误差上界

References

统计学习方法(第2版)李航著 p25~27

定理

对于二分类问题,当假设空间是有限个函数的集合F={f1,f2,...,fd}F=\{f_1,f_2,...,f_d\}F={f1​,f2​,...,fd​}时,对任意一个函数fFf\in Ff∈F,至少以概率1δ1-\delta1−δ,0<δ<10<\delta<10<δ<1,以下不等式成立:R(f)R^(f)+ε(d,N,δ)R(f)\leq \hat{R}(f)+\varepsilon(d,N,\delta)R(f)≤R^(f)+ε(d,N,δ)其中,ε(d,N,δ)=12N(logd+log1δ)\varepsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(\log{d}+\log{\frac{1}{\delta}})}ε(d,N,δ)=2N1​(logd+logδ1​)

前置知识

关于fff的期望风险:R(f)=E[L(Y,f(X))]R(f)=E[L(Y,f(X))]R(f)=E[L(Y,f(X))]经验风险:R^(f)=1Ni=1NL(yi,f(xi))\hat{R}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))R^(f)=N1​i=1∑N​L(yi​,f(xi​))其中,LLL是损失函数。

个人理解

首先,看定理的名字“泛化误差上界”。泛化误差指的是模型fff对未知数据预测的误差,大白话来说就是测试集上的cost。事实上,泛化误差就是期望风险R(f)R(f)R(f)。泛化误差反应了模型的真实性能。用一句话解释泛化误差上界,“模型实际表现最烂能烂到什么程度”。这个解释还不够严谨,继续补充。
接下来,看定理内容。注意到以下几点

  1. 定理的适用范围是二分类问题。这使得LLL为0-1损失函数,LLL的取值{0,1}\in\{0,1\}∈{0,1}。
  2. 集合FFF为模型的假设空间,包含了有限个备选函数。具体的个数为ddd。这句话可以在推导过程中有更深刻的体会。
  3. 1δ1-\delta1−δ的通俗含义。 对于集合FFF中任意的函数fff,至少以1δ1-\delta1−δ的置信度使不等式成立。1δ1-\delta1−δ代表了这个上界的可信程度
  4. 不等式含义。期望风险也就是泛化误差R(f)R(f)R(f),小于等于经验风险R^(f)\hat{R}(f)R^(f)加某个数ε\varepsilonε。经验风险R^(f)\hat{R}(f)R^(f)就是模型fff在训练集上的表现。假设我们训练好了一个模型fff,那么R^(f)\hat{R}(f)R^(f)就是已知量了。对不等式移项得R(f)R^(f)εR(f)-\hat{R}(f)\leq\varepsilonR(f)−R^(f)≤ε。根据直觉也能知道,期望风险肯定是比经验风险大的,大多少呢?可以看到,这个差距不超过ε\varepsilonε。
  5. ε\varepsilonε与R(f)R(f)R(f)上界的关系。ε\varepsilonε是推导过程中产生的,仅为了美观。真正影响R(f)R(f)R(f)上界的是N,d,1δN,d,1-\deltaN,d,1−δ这三个参数。(1)NNN是训练样本数,NNN增大,ε\varepsilonε减小,R(f)R(f)R(f)上界也减小,R(f)R(f)R(f)上界越接近R^(f)\hat{R}(f)R^(f)。对应的解释是样本大,训练就充分,当N取极限趋于无穷时,期望风险就趋于经验风险。(2)ddd表示假设空间中备选函数的个数,ddd增大,ε\varepsilonε增大,R(f)R(f)R(f)上界也随之增大。这里可以理解为,可选的函数越多,模型就会变得复杂,训练更加困难,有点奥卡姆剃刀的意思。(3)置信度1δ1-\delta1−δ增大,δ\deltaδ减小,相应R(f)R(f)R(f)上界也增大。这是显然的,想要增加可信度,相应的也要放宽条件。

至此,我们已经可以用一句话总结定理了。“在有限个备选函数的模型假设空间里,通过训练集训练出来的模型,有一定概率在测试集中的表现是靠谱的”。我认为这个定理证明了机器学习的可行性和有效性。

公式推导

  • 首先介绍Hoeffding不等式。

X1,X2,...,XNX_1,X_2,...,X_NX1​,X2​,...,XN​是独立随机变量,且Xi[ai,bi],i=1,2,...,NX_i\in[a_i,b_i],i=1,2,...,NXi​∈[ai​,bi​],i=1,2,...,N;Xˉ\bar{X}Xˉ是X1,X2,...,XNX_1,X_2,...,X_NX1​,X2​,...,XN​的经验均值,即Xˉ=1Ni=1NXi\bar{X}=\frac{1}{N}\sum_{i=1}^NX_iXˉ=N1​∑i=1N​Xi​,则对任意t>0t>0t>0,以下不等式成立:P[XˉE(Xˉ)t]exp(2N2t2i=1N(biai)2)P[\bar{X}-E(\bar{X})\geq t]\leq \exp\left({-\frac{2N^2t^2}{\sum_{i=1}^N(b_i-a_i)^2}}\right)P[Xˉ−E(Xˉ)≥t]≤exp(−∑i=1N​(bi​−ai​)22N2t2​)P[E(Xˉ)Xˉt]exp(2N2t2i=1N(biai)2)P[E(\bar{X})-\bar{X}\geq t]\leq \exp\left({-\frac{2N^2t^2}{\sum_{i=1}^N(b_i-a_i)^2}}\right)P[E(Xˉ)−Xˉ≥t]≤exp(−∑i=1N​(bi​−ai​)22N2t2​)

  • 将Hoeffding不等式中的XXX替换为LLL,其中Li=L(yi,f(xi))L_i=L(y_i,f(x_i))Li​=L(yi​,f(xi​)),Li[ai,bi],ai=0,bi=1L_i\in [a_i,b_i],a_i=0,b_i=1Li​∈[ai​,bi​],ai​=0,bi​=1;把ttt替换为ε\varepsilonε。对任意函数fFf\in Ff∈F,可得Lˉ=R^(f)\bar{L}=\hat{R}(f)Lˉ=R^(f),E(Lˉ)=R(f)E(\bar{L})=R(f)E(Lˉ)=R(f)。整理的式子如下:P(R(f)R^(f)ε)exp(2Nε2)P(R(f)-\hat{R}(f)\geq\varepsilon)\leq\exp(-2N\varepsilon^2)P(R(f)−R^(f)≥ε)≤exp(−2Nε2)
  • 因为FFF是有限集合,故
    P(fF:R(f)R^(f)ε)=P(fF{R(f)R^(f)ε})fFP(R(f)R^(f)ε)dexp(2Nε2)\begin{aligned} P(\exist f\in F:R(f)-\hat{R}(f)\geq\varepsilon)&=P(\bigcup_{f\in F}\{R(f)-\hat{R}(f)\geq\varepsilon\})\\&\leq\sum_{f\in F}P(R(f)-\hat{R}(f)\geq\varepsilon)\\&\leq d\exp(-2N\varepsilon^2) \end{aligned}P(∃f∈F:R(f)−R^(f)≥ε)​=P(f∈F⋃​{R(f)−R^(f)≥ε})≤f∈F∑​P(R(f)−R^(f)≥ε)≤dexp(−2Nε2)​
  • dexp(2Nε2)=δd\exp(-2N\varepsilon^2)=\deltadexp(−2Nε2)=δ,易得P(R(f)<R^(f)+ε)1δP(R(f)< \hat{R}(f)+\varepsilon)\geq1-\deltaP(R(f)<R^(f)+ε)≥1−δ。δ\deltaδ表示:在集合FFF中,存在fff使得期望风险与经验风险的差值大于ε\varepsilonε的概率。

证毕。

DamianGao 发布了37 篇原创文章 · 获赞 21 · 访问量 4万+ 私信 关注

标签:varepsilon,李航,泛化,...,bi,笔记,exp,2N,hat
来源: https://blog.csdn.net/ghr19961014/article/details/104549797

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有