ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

我的第一个 BigQuery ML 模型

2022-09-05 01:30:40  阅读:186  来源: 互联网

标签:ML 模型 titanic BigQuery Sex file id


我的第一个 BigQuery ML 模型

大查询 是一个高度可扩展、无服务器、多云的数据仓库工具。反过来, BigQuery 机器学习 (BQML) 是一项功能,可让您使用标准 SQL 查询在 BigQuery 中构建和运行机器学习模型。借助 BQML,机器学习允许 SQL 专业人员使用现有的 SQL 技能和工具构建模型。所以在这篇文章中,我将以一种简化的方式记录我在这个工具中获得我的第一个机器学习模型的过程。

首先,让我们来看看数据。由于这是我第一次使用该工具,我选择使用我已经知道的数据,“ 泰坦尼克号——灾难中的机器学习 ”,来自 Kaggle,数据已经从源头进行训练和测试分离。

Fonte: https://www.kaggle.com/competitions/titanic/overview

资料来源:https://www.kaggle.com/competitions/titanic/overview

我下载了 CSV 文件并通过当前代码将它们导入 BigQuery 表 在这个存储库中 来自我的 GitHub。

**从** 谷歌云 **进口** 大查询  
 **进口** 操作系统  
  
 auth_file **=** ''  
 操作系统 **.** 环境[“GOOGLE_APPLICATION_CREDENTIALS”] **=** auth_file  
  
 客户 **=** 大查询 **.** 客户()  
  
 table_id **=** ''  
 文件路径 **=** ''  
  
 作业配置 **=** 大查询 **.** 加载作业配置(  
 源格式 **=** 大查询 **.** 源格式 **.** CSV,skip_leading_rows **=** 1、自动检测 **=真** ,  
 write_disposition **=** 大查询 **.** 写处置 **.** WRITE_TRUNCATE)  
  
 **和** 打开(文件路径,“rb”) **作为** 源文件:  
 工作 **=** 客户 **.** load_table_from_file(source_file, table_id, job_config **=** 作业配置) --将身份验证文件路径添加到 auth_file 变量中。 -- 在 table_id 变量中包含要填充的 BigQuery 表 ID。 --在file_path变量中包含要加载的文件的路径。

使用 BigQuery 中可用的两个表“train”和“test”,我执行了以下步骤:

**模型创建。
** 我使用 CREATE MODEL 方法运行了以下脚本。

 创建模型`dataset.titanic.model1`  
 选项(model_type='logistic_reg')如 选择  
 类,  
 如果 Sex = 'male' 然后 1 else 0 end Sex,  
 演员(年龄为整数)年龄,  
 同胞,  
 尊重,  
 票价,  
 登船,  
 幸存标签 FROM `project_id.dataset.train`

结果,在数据集中生成了一个新元素,如下图所示。

**模型评估。
** 为了评估模型,我使用了以下脚本,使用 EVALUATE 方法。

 选择 * 从 ML.EVALUATE(模型`project_id.titanic.model1`),(  
 选择  
 类,  
 如果 Sex = 'male' 然后 1 else 0 end Sex,  
 演员(年龄为整数)年龄,  
 同胞,  
 尊重,  
 票价,  
 登船  
 FROM `project_id.titanic.test`  
 )

有了这个,我得到了以下结果:
精度 0,70313
召回 0,68182
准确度 0,78947
f1_score 0,69231
log_loss 0,45522
roc_auc 0.82867

**使用模型进行预测。
** 为了使用模型进行预测,我使用了以下脚本,使用 PREDICT 方法。

 选择  
 预测标签  
 从 ML.PREDICT(模型`analises-de-dados.titanic.model1`,( 选择  
 类,  
 如果 Sex = 'male' 然后 1 else 0 end Sex,  
 演员(年龄为整数)年龄,  
 同胞,  
 尊重,  
 票价,  
 登船  
 FROM `analises-de-dados.titanic.test`  
 ))

请注意,在预测中使用了测试数据。此外,我将获得的结果保存在 csv 文件中,以启用 Kaggle 中的“提交”。

永远向前。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/14354/24020501

标签:ML,模型,titanic,BigQuery,Sex,file,id
来源: https://www.cnblogs.com/amboke/p/16656692.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有