ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

ML .NET 二手车价格预测之再次训练与参数调整(二)

2022-03-07 19:35:10  阅读:179  来源: 互联网

标签:mlContext 二手车 ML InputOutputColumnPair Transforms new NET Type Append


再次训练与参数调整

UsedCarsPricePredictionMLModel.training.cs文件下,有训练设置与训练模型的方法
BuildPipeline方法中是ML .NET自动生成的训练设置,包括选择了哪些参数,预测的字段是什么,
以及调用LightGbm方法,参数配置为

{
    NumberOfLeaves=17,
    MinimumExampleCountPerLeaf=25,
    NumberOfIterations=6019,
    MaximumBinCountPerFeature=24,
    LearningRate=1F,
    LabelColumnName=@"Price",
    FeatureColumnName=@"Features",
    Booster=new GradientBooster.Options()
    {
        SubsampleFraction=0.706948120047722F,
        FeatureFraction=0.521537449021549F,
        L1Regularization=0.00247814105551342F,
        L2Regularization=0.00137211480690565F
    }
}

这些都是由ML .NET自动生成好的推荐配置参数,如果本身对机器学习有所研究,可以在此基础上进行修改,以达到优化模型的作用
参考资料 LightGbmExtensions.LightGbm 方法
完整训练代码如下

public static IEstimator<ITransformer> BuildPipeline(MLContext mlContext)
{
    // Data process configuration with pipeline data transformations
    var pipeline = mlContext.Transforms.Categorical.OneHotEncoding(new []{new InputOutputColumnPair(@"Fuel_Type", @"Fuel_Type"),new InputOutputColumnPair(@"Transmission", @"Transmission"),new InputOutputColumnPair(@"Owner_Type", @"Owner_Type")})      
                            .Append(mlContext.Transforms.ReplaceMissingValues(new []{new InputOutputColumnPair(@"Year", @"Year"),new InputOutputColumnPair(@"Kilometers_Driven", @"Kilometers_Driven"),new InputOutputColumnPair(@"Seats", @"Seats")}))      
                            .Append(mlContext.Transforms.Text.FeaturizeText(@"Name", @"Name"))      
                            .Append(mlContext.Transforms.Text.FeaturizeText(@"Location", @"Location"))      
                            .Append(mlContext.Transforms.Text.FeaturizeText(@"Engine", @"Engine"))      
                            .Append(mlContext.Transforms.Text.FeaturizeText(@"Power", @"Power"))      
                            .Append(mlContext.Transforms.Concatenate(@"Features", new []{@"Fuel_Type",@"Transmission",@"Owner_Type",@"Year",@"Kilometers_Driven",@"Seats",@"Name",@"Location",@"Engine",@"Power"}))      
                            .Append(mlContext.Regression.Trainers.LightGbm(new LightGbmRegressionTrainer.Options(){NumberOfLeaves=17,MinimumExampleCountPerLeaf=25,NumberOfIterations=6019,MaximumBinCountPerFeature=24,LearningRate=1F,LabelColumnName=@"Price",FeatureColumnName=@"Features",Booster=new GradientBooster.Options(){SubsampleFraction=0.706948120047722F,FeatureFraction=0.521537449021549F,L1Regularization=0.00247814105551342F,L2Regularization=0.00137211480690565F}}));

    return pipeline;
}

之后可以调用RetrainPipeline方法再次训练,得到新的模型

public static ITransformer RetrainPipeline(MLContext context, IDataView trainData)
{
    var pipeline = BuildPipeline(context);
    var model = pipeline.Fit(trainData);

    return model;
}

获取model后保存成文件

//注意,这里使用txt或者tsv格式的文件
string trainCsvPath = Path.Combine(AppDomain.CurrentDomain.BaseDirectory, "TrainData", "train-data.txt");
string testCsvPath = Path.Combine(AppDomain.CurrentDomain.BaseDirectory, "TrainData", "test-data2.txt");
string modelDirectory = Path.Combine(AppDomain.CurrentDomain.BaseDirectory, "Model");
string modelPath = Path.Combine(modelDirectory, "UsedCarsPricePredictionMLModel.zip");

MLContext mlContext = new MLContext(seed: 0);
IDataView trainingDataView = mlContext.Data.LoadFromTextFile<ModelInput>(trainCsvPath, hasHeader: true);
var model = UsedCarsPricePredictionMLModel.RetrainPipeline(mlContext, trainingDataView);
if (!Directory.Exists(modelDirectory))
    Directory.CreateDirectory(modelDirectory);

mlContext.Model.Save(model, trainingDataView.Schema, modelPath);

小问题

问题1:

Property 'Column1' is missing the LoadColumnAttribute attribute

根据提示,需要为ModelInput模型输入类的每个属性添加LoadColumn特性,指明所在列
问题2:

Schema mismatch for input column 'Name_CharExtractor': expected Expected known-size vector of Single, got Vector<Single> Arg_ParamName_Name

根据ML.NET: Schema mismatch for input column 'AnswerFeaturized_CharExtractor': expected Expected Single or known-size vector of Single, got Vector,不能使用.csv文件,改为.txt文件或者.tsv文件

示例代码

UsedCarsPricePrediction

参考资料

10分钟快速入门
官方示例machinelearning-samples
教程:将回归与 ML.NET 配合使用以预测价格

标签:mlContext,二手车,ML,InputOutputColumnPair,Transforms,new,NET,Type,Append
来源: https://www.cnblogs.com/Lulus/p/15976394.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有