ICode9

精准搜索请尝试: 精确搜索
首页 > 数据库> 文章详细

Text-to-SQL学习笔记(二)数据集

2021-07-10 19:33:56  阅读:468  来源: 互联网

标签:Text SPIDER 笔记 查询 ATIS 评论 SQL Dataset 数据


Text2SQL — Part 2: Datasets

在这里插入图片描述

你可以在没有信息的情况下拥有数据,但你不能在没有数据的情况下拥有信息。 -Daniel Moran

与其他自然语言处理任务一样,Text2SQL高度依赖所使用的数据集类型。已经创建了具有不同结构、长度和查询的不同数据集。语义解析领域共有9个数据集,其中SPIDER是当前的基准数据集。

本博客涉及的数据集:

每个数据集的创建都基于不同的任务。例如,设计ATIS数据集是为了测量包括语音和自然语言成分的口语系统的进展。

让我们一个接一个地了解它们…

1. ATIS (Air Travel Information System) Dataset

ATIS语料库包括从官方航空指南收集的数据,按照关系模式组织。

它由25个表组成,其中包含关于票价、航空公司、航班、城市、机场和地面服务的信息。可以使用单个关系查询回答与此数据集相关的问题。

与此数据集对应的关系数据库被设计为以直观的方式回答查询,即使用更短的表来回答。

ATIS数据集查询示例:输入为自然语言形式,输出为λ微积分形式。

在这里插入图片描述

2. GeoQuery Dataset

地理查询数据集包含美国地理信息。它有大约800个facts表达在Prolog。

这个数据库包含关于州、城市、河流和山脉的信息。

属性主要由首都、人口密度等地理和地形属性构成。

3. IMDb Dataset

IMDb数据集是来自IMDb的50K条评论的巨大集合。每部电影的评论限制在30条以内。

数据集由相同数量的正面和负面评论组成。

数据集的创造者考虑了高度极化的评论,即分数≤4分的负面评论和分数≥7分的正面评论。

在创建数据集时,不考虑中性评论。

数据集被平均分配用于训练和测试。
在这里插入图片描述

4. Advising Dataset

创建建议数据集是为了在text2SQL系统中提出改进建议。

数据集的创建者比较了人工生成和自动生成的问题,引用了与现实应用程序相关的查询属性。

数据集由来自大学生的关于课程的问题组成,这些问题会导致特别复杂的查询。数据库中学生的记录是虚构的。

数据集包括学生简介信息,如推荐的课程、成绩和学生以前的课程。

问题是由了解数据的学生提出的。

在这里插入图片描述

当SPIDER发布时,现有的最先进的模型给出了12.4%的精确匹配精度。这种低精确度表明SPIDER在研究中提出了一个强大的挑战。

在SPIDER上,当前的最佳精度是66%左右,而且是没有精确匹配值(指WHERE子句中的值)。而有值时大概63%左右。

更多关于SPIDER上不同模型的结果的信息可以在这里找到。

这就是所有的数据集。在第3部分中,我们将探讨在Text2SQL域的这些数据集上构建的一些高效模型。

敬请期待!

标签:Text,SPIDER,笔记,查询,ATIS,评论,SQL,Dataset,数据
来源: https://blog.csdn.net/u011426236/article/details/118639070

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有