cross-validation

scikit.learn cross_val_score中的错误2019-11-21 04:57:54

请参考以下地址的笔记本 LogisticRegression 这部分代码 scores = cross_val_score(LogisticRegression(), X, y, scoring='accuracy', cv=10) print scores print scores.mean() 在Windows 7 64位计算机上生成以下错误 ------------------------------------------------------
python-RepeatedKFold实际上是什么意思？2019-11-09 06:55:25

假设n_repeats = 5,折叠数为3(n_splits = 3). 这是否意味着验证者正在为我们的估算器/模型创建3折以使用每一折(例如KFold的用途),然后将该过程重复5次？这意味着我们的模型将总共使用5 x 3 = 15倍？解决方法:是的,您基本上可以通过循环调用KFolds.split()n_repeats次来达到相同的效果
我在参数调整(cv)时的平均测试分数为什么比保持测试集(RandomForestClassifier)低？2019-11-09 03:57:16

我正在使用RandomizedSearchCV(sklearn)进行超参数调整,并在训练集上进行了3倍交叉验证.之后,我要检查测试集的分数(准确性,recall_weighted,cohen_kappa).令人惊讶的是,它总是比我的RandomizedSearchCV的best_score属性高一些. 首先,我要执行分层数据,将其分成70/30个训练和测试集
python-如何访问Scikit学习嵌套的交叉验证得分2019-10-26 08:56:38

我正在使用python,并且希望将嵌套交叉验证与scikit学习一起使用.我发现一个非常好的example： NUM_TRIALS = 30 non_nested_scores = np.zeros(NUM_TRIALS) nested_scores = np.zeros(NUM_TRIALS) # Choose cross-validation techniques for the inner and outer loops, # independe
python-如何在sklearn中的每个交叉验证模型中计算特征重要性2019-10-11 21:55:20

我使用RandomForestClassifier()与10倍交叉验证,如下所示. clf=RandomForestClassifier(random_state = 42, class_weight="balanced") k_fold = StratifiedKFold(n_splits=10, shuffle=True, random_state=42) accuracy = cross_val_score(clf, X, y, cv=k_fold, scoring = �
我为什么要在张量流中构建单独的图形进行训练和验证？2019-10-09 10:58:38

我已经使用了tensorflow一段时间了.一开始我有这样的东西： def myModel(training): with tf.scope_variables('model', reuse=not training): do model return model training_model = myModel(True) validation_model = myModel(False) 主要是因为我从一些M
python – cross_val_score和cross_val_predict之间的区别2019-09-30 10:57:06

我想使用交叉验证来评估使用scikitlearn的回归模型构建并使我感到困惑,我应该使用cross_val_score和cross_val_predict这两个函数中的哪一个. 一种选择是： cvs = DecisionTreeRegressor(max_depth = depth) scores = cross_val_score(cvs, predictors, target, cv=cvfolds, scoring
python – predict_proba用于交叉验证的模型2019-09-28 18:09:43

我想用Logistic回归模型预测交叉验证的概率.我知道您可以获得交叉验证分数,但是可以从predict_proba而不是分数返回值吗？ # imports from sklearn.linear_model import LogisticRegression from sklearn.cross_validation import (StratifiedKFold, cross_val_score,
python – GridSearchCV是否执行交叉验证？2019-09-28 17:06:03

我目前正在研究一个问题,该问题比较了同一数据集上三种不同的机器学习算法性能.我将数据集划分为70/30个训练/测试集,然后使用GridSearchCV和X_train,y_train对每个算法的最佳参数进行网格搜索. 第一个问题,我想在训练集上进行网格搜索还是假设在整个数据集上？第二个问题,我知道Gri
python – TypeError：__ init __()得到一个意外的关键字参数’scoring’2019-07-25 17:57:27

这个演示代码怎么可能(取自这里：http://scikit-learn.org/dev/auto_examples/grid_search_digits.html) TypeError：__ init __()得到一个意外的关键字参数’scoring’,当obviuodly scoring是一个参数(http://scikit-learn.org/dev/modules/generated/sklearn.grid_search.GridSearchC
python – 在Gridline for GridSearchCV中替换不同的模型2019-07-24 10:59:17

我想在sklearn中构建一个Pipeline并使用GridSearchCV测试不同的模型. 举个例子(请不要注意选择的特定型号)： reg = LogisticRegression() proj1 = PCA(n_components=2) proj2 = MDS() proj3 = TSNE() pipe = [('proj', proj1), ('reg' , reg)] pipe = Pipeline(pipe) param_gri
python – scikit-learn管道：网格搜索变压器参数以生成数据2019-07-11 16:57:45

我想使用scikit-learn管道的第一步来生成玩具数据集,以评估我的分析性能.我想出的一个简单的示例解决方案如下所示： import numpy as np from sklearn.pipeline import Pipeline from sklearn.grid_search import GridSearchCV from sklearn.base import TransformerMixin from skl
python – 关于k折叠交叉验证的建议2019-07-11 13:58:17

我目前正在使用以下代码执行使用支持向量机分类的dicom图像的交叉验证方法： #Cross Validation using k-folds clf = svm.SVC(kernel='linear') scores = cross_validation.cross_val_score(clf,X,Y,cv=16)) print scores print("Accuracy: %0.2f (+/- %0.2f)"
python – 如何从scikit-learn中的predict_proba中使用cross_val_predict获取类标签2019-07-02 01:43:42

我需要使用3倍交叉验证训练Random Forest classifier.对于每个样本,我需要在它恰好位于测试集中时检索预测概率. 我正在使用scikit-learn版本0.18.dev0. 此新版本添加了使用方法cross_val_predict()和附加参数方法来定义估计器需要哪种预测的功能. 在我的情况下,我想使用predict_pr
xgboost CV与自定义折叠python2019-07-01 20:46:56

我正在处理数据,每个患者都可以有不同数量的训练样例.当运行Xgboost CV时,我想确保同一患者的数据仅限于同一个折叠,因此我需要使用折叠,其中可能有不同数量的索引. 在使用xgb.cv函数中的’fold’参数传递包含索引的numpy数组列表时,我得到： dtrain = dall.slice(np.concatenate([id
python – 将GridSearchCV用于RandomForestRegressor2019-06-28 19:43:41

我正在尝试将GridSearchCV用于RandomForestRegressor,但总是得到ValueError：找到带有暗淡100的数组.预计500.考虑这个玩具示例： import numpy as np from sklearn import ensemble from sklearn.cross_validation import train_test_split from sklearn.grid_search import GridSea
python – 通过使用pandas中groupby()的百分比从Train集中获取验证集2019-06-27 08:53:43

拥有具有多类目标变量类别的训练数据集 train.groupby('category').size() 0 2220 1 4060 2 760 3 1480 4 220 5 440 6 23120 7 1960 8 64840 我想通过获得每个类的百分比(比如说20％)从列车集中获取新的验证数据集,以避免在验证集中丢失类
python – 为什么xgboost.cv和sklearn.cross_val_score给出不同的结果？2019-06-23 02:45:20

我正在尝试在数据集上创建分类器.我第一次使用XGBoost： import xgboost as xgb import pandas as pd import numpy as np train = pd.read_csv("train_users_processed_onehot.csv") labels = train["Buy"].map({"Y":1, "N":0}) features = train.drop(
python – scikit-learn：cross_val_predict仅适用于分区2019-06-22 16:43:23

我正在努力研究如何在sklearn中实现TimeSeriesSplit. 下面链接中的建议答案产生相同的ValueError. sklearn TimeSeriesSplit cross_val_predict only works for partitions 这里是我代码中的相关位： from sklearn.model_selection import cross_val_predict from sklearn import sv
python – 使用交叉验证评估Logistic回归2019-05-19 10:56:51

我想使用交叉验证来测试/训练我的数据集,并评估逻辑回归模型在整个数据集上的性能,而不仅仅是在测试集上(例如25％). 这些概念对我来说是全新的,我不确定它是否做得对.如果有人能告诉我正确的步骤,我会在错误的地方采取行动,我将不胜感激.我的部分代码如下所示. 另外,如何在当前图形

ICode9

scikit.learn cross_val_score中的错误2019-11-21 04:57:54

python-RepeatedKFold实际上是什么意思？2019-11-09 06:55:25

我在参数调整(cv)时的平均测试分数为什么比保持测试集(RandomForestClassifier)低？2019-11-09 03:57:16

python-如何访问Scikit学习嵌套的交叉验证得分2019-10-26 08:56:38

python-如何在sklearn中的每个交叉验证模型中计算特征重要性2019-10-11 21:55:20

我为什么要在张量流中构建单独的图形进行训练和验证？2019-10-09 10:58:38

python – cross_val_score和cross_val_predict之间的区别2019-09-30 10:57:06

python – predict_proba用于交叉验证的模型2019-09-28 18:09:43

python – GridSearchCV是否执行交叉验证？2019-09-28 17:06:03

python – TypeError： init ()得到一个意外的关键字参数’scoring’2019-07-25 17:57:27

python – 在Gridline for GridSearchCV中替换不同的模型2019-07-24 10:59:17

python – scikit-learn管道：网格搜索变压器参数以生成数据2019-07-11 16:57:45

python – 关于k折叠交叉验证的建议2019-07-11 13:58:17

python – 如何从scikit-learn中的predict_proba中使用cross_val_predict获取类标签2019-07-02 01:43:42

xgboost CV与自定义折叠python2019-07-01 20:46:56

python – 将GridSearchCV用于RandomForestRegressor2019-06-28 19:43:41

python – 通过使用pandas中groupby()的百分比从Train集中获取验证集2019-06-27 08:53:43

python – 为什么xgboost.cv和sklearn.cross_val_score给出不同的结果？2019-06-23 02:45:20

python – scikit-learn：cross_val_predict仅适用于分区2019-06-22 16:43:23

python – 使用交叉验证评估Logistic回归2019-05-19 10:56:51

ICode9

scikit.learn cross_val_score中的错误2019-11-21 04:57:54

python-RepeatedKFold实际上是什么意思？2019-11-09 06:55:25

我在参数调整(cv)时的平均测试分数为什么比保持测试集(RandomForestClassifier)低？2019-11-09 03:57:16

python-如何访问Scikit学习嵌套的交叉验证得分2019-10-26 08:56:38

python-如何在sklearn中的每个交叉验证模型中计算特征重要性2019-10-11 21:55:20

我为什么要在张量流中构建单独的图形进行训练和验证？2019-10-09 10:58:38

python – cross_val_score和cross_val_predict之间的区别2019-09-30 10:57:06

python – predict_proba用于交叉验证的模型2019-09-28 18:09:43

python – GridSearchCV是否执行交叉验证？2019-09-28 17:06:03

python – TypeError：__ init __()得到一个意外的关键字参数’scoring’2019-07-25 17:57:27

python – 在Gridline for GridSearchCV中替换不同的模型2019-07-24 10:59:17

python – scikit-learn管道：网格搜索变压器参数以生成数据2019-07-11 16:57:45

python – 关于k折叠交叉验证的建议2019-07-11 13:58:17

python – 如何从scikit-learn中的predict_proba中使用cross_val_predict获取类标签2019-07-02 01:43:42

xgboost CV与自定义折叠python2019-07-01 20:46:56

python – 将GridSearchCV用于RandomForestRegressor2019-06-28 19:43:41

python – 通过使用pandas中groupby()的百分比从Train集中获取验证集2019-06-27 08:53:43

python – 为什么xgboost.cv和sklearn.cross_val_score给出不同的结果？2019-06-23 02:45:20

python – scikit-learn：cross_val_predict仅适用于分区2019-06-22 16:43:23

python – 使用交叉验证评估Logistic回归2019-05-19 10:56:51

python – TypeError： init ()得到一个意外的关键字参数’scoring’2019-07-25 17:57:27