python – scikit-learn管道：网格搜索变压器参数以生成数据

2019-07-11 16:57:45 阅读：271 来源： 互联网

标签：python scikit-learn cross-validation grid-search

我想使用scikit-learn管道的第一步来生成玩具数据集,以评估我的分析性能.我想出的一个简单的示例解决方案如下所示：

import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.grid_search import GridSearchCV
from sklearn.base import TransformerMixin
from sklearn import cluster

class FeatureGenerator(TransformerMixin):

    def __init__(self, num_features=None):
        self.num_features = num_features

    def fit(self, X, y=None, **fit_params):
        return self

    def transform(self, X, **transform_params):
        return np.array(
            range(self.num_features*self.num_features)
        ).reshape(self.num_features,
                  self.num_features)

    def get_params(self, deep=True):
        return {"num_features": self.num_features}

    def set_params(self, **parameters):
        self.num_features = parameters["num_features"]
        return self

这个变压器在起作用. G.被称为这样：

pipeline = Pipeline([
    ('pick_features', FeatureGenerator(100)),
    ('kmeans', cluster.KMeans())
])

pipeline = pipeline.fit(None)
classes = pipeline.predict(None)
print classes

一旦我尝试对此管道进行网格搜索,它就变得棘手：

parameter_sets = {
    'pick_features__num_features' : [10,20,30],
    'kmeans__n_clusters' : [2,3,4]
}

pipeline = Pipeline([
    ('pick_features', FeatureGenerator()),
    ('kmeans', cluster.KMeans())
])

g_search_estimator = GridSearchCV(pipeline, parameter_sets)

g_search_estimator.fit(None,None)

网格搜索期望样本和标签作为输入,并且不像管道那样健壮,管道不会抱怨None作为输入参数：

TypeError: Expected sequence or array-like, got <type 'NoneType'>

这是有道理的,因为网格搜索需要将数据集划分为不同的cv分区.

除了上面的例子,我有很多参数,可以在数据集生成步骤中进行调整.因此,我需要一个解决方案,将此步骤包含在我的参数选择交叉验证中.

问题：有没有办法从第一个变换器内部设置GridSearch的X和y？或者解决方案怎么样,用多个不同的数据集(最好是并行)调用GridSearch？或者有没有人试图自定义GridSearchCV或可以指向一些阅读材料？

解决方法:

您的代码非常干净,因此很高兴为您提供这种快速而肮脏的解决方案：

g_search_estimator.fit([1., 1., 1.],[1., 0., 0.])
g_search_estimator.best_params_

输出：

[tons of int64 to float64 conversion warnings]
{'kmeans__n_clusters': 4, 'pick_features__num_features': 10}

请注意,您需要3个样本,因为您正在进行(默认)3倍交叉验证.

你得到的错误是因为GridSearchCV对象执行的检查,所以它发生在变换器有可能做任何事情之前.所以我会对你的第一个问题说“不”：

Is there a way to set the Xs and ys of the GridSearch from inside the
first transformer?

编辑：
我意识到这是不必要的混淆,以下三行是等价的：
g_search_estimator.fit([1.,1.,1.],[1.,0.,0.])
g_search_estimator.fit([1.,1.,1.],无)
g_search_estimator.fit([1.,1.,1.])

很抱歉在那里匆匆扔了随机的ys.

关于网格搜索如何计算不同网格点的得分的一些解释：当你将得分=无传递给GridSearchCV构造函数时(这是默认值,这就是你在这里得到的),它会向估算器询问得分函数.如果有这样的功能,它将用于评分.对于KMeans,默认分数函数基本上与到集群中心的距离之和相反.
这是一个无监督的指标,因此这里不需要y.

把它包装起来,你将永远能够：

set the Xs of the GridSearch from inside the first transformer

只需将输入X“转换”为完全不相关的东西,没有人会抱怨它.你确实需要一些输入random_X.
现在,如果您想使用受监督的指标(我从您的问题中得到这种感觉),您还需要指定y.
一个简单的场景是你有一个固定的y向量,你想尝试几个X.然后你可以这样做：

g_search_estimator.fit(random_X, y, scoring=my_scoring_function)

它应该运行正常.如果你想搜索y的不同值,它可能会有点棘手.

标签：python,scikit-learn,cross-validation,grid-search
来源： https://codeday.me/bug/20190711/1434176.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

python – scikit-learn管道：网格搜索变压器参数以生成数据