ICode9

精准搜索请尝试: 精确搜索
首页 > 编程语言> 文章详细

python – cross_val_score和cross_val_predict之间的区别

2019-09-30 10:57:06  阅读:587  来源: 互联网

标签:cross-validation python scikit-learn regression machine-learning


我想使用交叉验证来评估使用scikitlearn的回归模型构建并使我感到困惑,我应该使用cross_val_score和cross_val_predict这两个函数中的哪一个.
一种选择是:

cvs = DecisionTreeRegressor(max_depth = depth)
scores = cross_val_score(cvs, predictors, target, cv=cvfolds, scoring='r2')
print("R2-Score: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))

另一个,使用标准r2_score的cv预测:

cvp = DecisionTreeRegressor(max_depth = depth)
predictions = cross_val_predict(cvp, predictors, target, cv=cvfolds)
print ("CV R^2-Score: {}".format(r2_score(df[target], predictions_cv)))

我认为这两种方法都是有效的,并给出类似的结果.但这只是小k倍的情况.虽然r ^ 2对于10倍-cv大致相同,但是对于使用“cross_vall_score”的第一版本的情况,对于更高的k值,它变得越来越低.第二个版本大多不受折叠次数变化的影响.

这种行为是否可以预期,我是否对SKLearn中的CV缺乏了解?

解决方法:

cross_val_score返回测试折叠的得分,其中cross_val_predict返回测试折叠的预测y值.

对于cross_val_score(),您使用的是输出的平均值,这将受到折叠数量的影响,因为它可能会有一些可能具有高误差的折叠(不正确).

然而,对于输入中的每个元素,cross_val_predict()返回该元素在测试集中时获得的预测. [请注意,只能使用将测试集中的所有元素分配一次的交叉验证策略].因此,增加折叠数量只会增加测试元素的训练数据,因此其结果可能不会受到太大影响.

希望这可以帮助.随意提出任何疑问.

编辑:在评论中回答问题

请查看以下关于cross_val_predict如何工作的答案:

> https://stackoverflow.com/a/41524968/3374996

我认为cross_val_predict会过度适应,因为随着折叠的增加,更多的数据将用于火车,更少的数据用于测试.因此,结果标签更依赖于训练数据.同样如上所述,对一个样本的预测仅进行一次,因此可能更容易分裂数据.
这就是为什么大多数地方或教程建议使用cross_val_score进行分析.

标签:cross-validation,python,scikit-learn,regression,machine-learning
来源: https://codeday.me/bug/20190930/1835675.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有