ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

DART: Open-Domain Structured Data Record to Text Generation 翻译

2021-11-06 14:01:04  阅读:254  来源: 互联网

标签:Domain Generation Open 语义 DART 本体 文本 数据 句子


原文链接

介绍

从结构化数据中自动生成文本描述提高了知识库对普通用户的可访问性。这些应用包括向非专家解释数据记录,撰写体育新闻,总结多个文档中的信息,并生成对话回应。

数据到文本这个领域依然有很多挑战:首先,它们采用扁平的数据本体结构,例如数据记录的槽值对或者表格的扁平形式。这种扁平化的结构不足以在结构化数据的本体中编码丰富的语义关系,尤其是表,这些语义关系可以利用这些语义知识进一步改进表的表示。其次,一些数据集只关注少量的领域或知识图,因此提供有限数量的谓词和数据本体。此外,由于任务的性质和自动生成过程的原因,其中一些算法在数据输入和句子之间只存在松散的对齐。

为了解决这些问题,我们提出了structured DAta-Record-to-Text(DART),目标是覆盖维基百科中的多样的表格,比特定域的数据集要丰富。我们还引入了新的表上的树本体注释,它将平面表模式转换为树结构的语义框架。 树本体反映了表模式中的核心和辅助关系,并且自然地跨许多领域出现。因此,DART为从各种数据源(包括WikiSQL和WikiTableQuestions)提取的树状结构语义框架提供高质量的句子注释。我们评估了DART上的几种最先进的数据到文本模型,发现尽管这些模型在特定领域上表现很好,但却由于DART的领域丰富的语义结构而表现不好。

我们的贡献:

  1. 我们为结构化数据到文本的生成提出了一个很大且开放域的数据集,并把他们转换成树结构,这种层级的输入是我们和其他语料的区别。
  2. 我们对几个最先进的数据到文本模型进行了基准测试,以表明DART引入了新的泛化挑战。
  3. 我们证明,使用DART进行数据增强可以提高WebNLG 2017数据集上现有模型的性能。考虑到DART的开放领域特性,我们希望该结果能够推广到其他数据到文本的数据集。

数据采集

整体流程如图1所示,包含了几个数据集部分。

树本体与表的句子标注

连通分量提取

这一部分筛选掉一些与无法联通或联通错误的sample,或者人为进行修改。

句子标注

构建Tripleset Sentence对儿

标签:Domain,Generation,Open,语义,DART,本体,文本,数据,句子
来源: https://www.cnblogs.com/TABball/p/15516744.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有