task 03 集成模式

2021-10-20 23:30:38 阅读：355 来源： 互联网

Task01开始啦：
决策树(上)，截止时间：10月21日03:00
-------
【资料链接】https://datawhalechina.github.io/machine-learning-toy-code/01_tree_ensemble/02_ensemble.html#part-b

主要学习知识点：

【练习1】左式第四个等号为何成立？

当
c o v ( E D [ f ^ D ] − f ^ D , ϵ ) = 0 cov(\mathbb{E}_{D}[\hat{f}_D] - \hat{f}_D, \epsilon) = 0 cov(ED[f^D]−f^D,ϵ)=0
【练习2】有人说Bias-Variance Tradeoff就是指“一个模型要么具有大的偏差，要么具有大的方差”，你认为这种说法对吗？你能否对“偏差-方差权衡”现象做出更准确的表述？

不对。

更准确的表达是，对于那些偏差比较小的模型，其对训练数据集的拟合能力也就越好，学习到了很多关于特征和输出之间的关系，有了这种性质之后，对于新的信息，我们预测能力就比较差，因为我们模型携带了太多关于原始（训练）数据的信息，所以对于新的数据集（测试集）的学习能力就比较弱，产生的波动比较大。

同理，对于那些方差比较小的模型，其模型的变化情况不会太大。

【练习3】假设总体有100个样本，每轮利用bootstrap抽样从总体中得到10个样本（即可能重复），请求出所有样本都被至少抽出过一次的期望轮数。（通过本文介绍的方法，我们还能得到轮数方差的bound）

抽到n个不同的样本的次数期望为：
E ( T ) = E ( t 1 + t 2 + ⋯ + t n ) = n ⋅ H n \begin{aligned} \mathrm{E}(T) &= \mathbb{E}(t_1 + t_2 + \cdots + t_n) \\ &= n \cdot H_n \end{aligned} E(T)=E(t1+t2+⋯+tn)=n⋅Hn
其中 H n H_n Hn为harmonic number(调和数)，取值为:
E = n ⋅ H n = n log ⁡ n + γ n + 1 2 + O ( 1 / n ) \mathrm{E} = n \cdot H_n = n \log n + \gamma n + \cfrac{1}{2} + O(1/n) E=n⋅Hn=nlogn+γn+21+O(1/n)
当我们已经收集到 k k k个不同的样本之后，再累计收集到 n n n个样本所需要的抽样此为的期望为：
E ( T k ) = E ( t k + 1 + t k + 2 + ⋯ + t n ) = n ⋅ ( 1 1 + 1 2 + ⋯ + 1 n − k ) = n ⋅ H n − k \begin{aligned} \mathrm{E}(T_k) &= \mathrm{E}(t_{k+1} + t_{k+2} + \cdots + t_{n}) \\ &=n \cdot ( \cfrac{1}{1} + \cfrac{1}{2} + \cdots + \cfrac{1}{n-k}) \\ &= n \cdot H_{n-k} \end{aligned} E(Tk)=E(tk+1+tk+2+⋯+tn)=n⋅(11+21+⋯+n−k1)=n⋅Hn−k
故
E ( T 10 ) = E ( t 11 + t 12 + ⋯ + t 100 ) = E ( T 100 ) − E ( T 10 ) ≈ 100 log ⁡ 100 + γ 100 + 1 2 − ( 10 log ⁡ 10 + γ 10 + 1 2 ) = 190 log ⁡ 10 + 90 γ \begin{aligned} \mathrm{E}(T_{10}) &= \mathrm{E}(t_{11} + t_{12} + \cdots + t_{100}) \\ &= \mathrm{E}(T_{100}) - \mathrm{E}(T_{10}) \\ &\approx 100 \log 100 + \gamma 100 + \cfrac{1}{2} - (10 \log 10 + \gamma 10 + \cfrac{1}{2}) \\ &= 190\log 10 + 90 \gamma \end{aligned} E(T10)=E(t11+t12+⋯+t100)=E(T100)−E(T10)≈100log100+γ100+21−(10log10+γ10+21)=190log10+90γ
TODO：轮数方差的bound

【练习4】对于stacking和blending集成而言，若m个基模型使用k折交叉验证，此时分别需要进行几次训练和几次预测？

训练：k * m + 1

预测：(2 * k) * m+ 1

【练习5】r2_score和均方误差的区别是什么？它具有什么优势？

r2_score 代表的是模型拟合的效果，取值为[0,1]之间。它能够说明模型的线性拟合程度，当r2_score接近1时，线性模型的拟合效果比较好，当模型接近0时，模型的线性拟合效果较差。

均方误差：
M S E = 1 N ∑ i = 1 N ( y i − y ^ i ) 2 MSE = \cfrac{1}{N} \sum_{i=1}^{N} (y_i-\hat{y}_i)^2 MSE=N1i=1∑N(yi−y^i)2
代表的是模型的综合误差，从中可以分解出偏差和方差以及模型本身自带的误差。综合性更强。

【练习6】假设使用闵氏距离来度量两个嵌入向量之间的距离，此时对叶子节点的编号顺序会对距离的度量结果有影响吗？

闵氏距离定义为：
D ( x , y ) = ( ∑ u = 1 n ∣ x u − y u ∣ p ) 1 p D(x, y) = (\sum_{u=1}^{n}|x_u -y_u|^p)^{\cfrac{1}{p}} D(x,y)=(u=1∑n∣xu−yu∣p)p1
编号顺序不会对距离的度量结果有影响。因为这些都是计算每个向量两个分量之间的距离关系，所以说编号顺序回对距离的度量结果没有影响。

关于闵氏距离，有以下的补充：

1、闵氏距离和特征参数的量纲有关，不同量纲的特征参数的闵氏距离常常是没有意义的。

2、闵氏距离没有考虑特征参数之间的相关性，而马哈拉诺比斯距离解决了这个问题。

知识回顾¶

什么是偏差和方差分解？偏差是谁的偏差？此处的方差又是指什么？

偏差和方差的分解，是对原始SSE部分进行分解，其中添加了一个常数项 E D [ f ^ D ] \mathbb{E}_{D}[\hat{f}_D] ED[f^D].

偏差是指数据真实值和模型平均预测值的偏差，偏差越小，模型的学习能力越强，能够很好的拟合数据；方差是值预测结果对数据集中数据扰动幅度的大小，方差越小，说明模型的抗干扰能力越强（不会随着数据集中数据的变动而对预测结果造成巨大的影响）。
相较于使用单个模型，bagging和boosting方法有何优势？

通过使用低偏差的学习其进行集成可以来降低模型的方差，

利用多个低方差的学习其进行集成可以来降低模型的偏差；

多个臭皮匠顶个诸葛亮。

bagging的话，有抽样，多个数据集之间肯定有差异，集成之后，可以稍微降低整体模型的方差；

boosting的话，会集中在减少原始训练的模型和真实值之间的差异带来的损失，这种训练会使得模型的偏差减小。
请叙述stacking的集成流程，并指出blending方法和它的区别。
什么是随机森林的oob得分？
随机森林是如何集成多个决策树模型的？
请叙述孤立森林的算法原理和流程。

标签：集成,03,偏差,task,10,模型,方差,cfrac,100
来源： https://blog.csdn.net/qq_35167821/article/details/120877372

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

task 03 集成模式

知识回顾¶