ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

现代自然语言生成:(一) 研究背景

2022-08-20 16:30:20  阅读:135  来源: 互联网

标签:自然语言 背景 信息 生成 Text 文本 输入


1、背景概述

自然语言处理 (NLP,natural language processing)
= 自然语言理解(NLU,natural language understanding) +自然语言生成( NLG,natural language generating)。

如何让机器“说出话”从而实现更方便、体验更好的人机交互系统,是NLG的最终目标之一。

2、基本定义与研究范畴

宽泛定义:在特定的交互目标下,从给定输入信息生成人类可读的语言文本的自动化过程。

输入:不同任务输入不同,包含下面四个维度<CG,UM,KB,CH>

  • CG 交互目标 Communicative Goal:服务于什么目的?
  • UM 用户模型 User Model : 生成内容的目标用户,涵盖了个性化语言生成任务:个性对话生成,广告语生成等
  • KB 任务相关的领域知识库 Knowledge Base:实体、关系、领域规则等信息
  • CH 上下文信息 Context History:需要考虑的输入信息

输出:一段可读的文本

3、NLG与NLU

NLU 自然语言理解:

  • 将文本转化为计算机能处理的文本内在表示。
  • 重在分析,理解输入文本的语义、意图。
  • 核心任务是在假设空间中选择一个或多个标记作为最后的答案。
  • 常见问题在于歧义(一词多义)和输入信息不足(字面信息意外的辅助信息)。

NLG 自然语言生成:

  • 将计算机能处理的文本内在表述转化为文本。
  • 重在规划和重构,从从往下的规划,包含派篇章、用语结构再到词的选择、风格等。
  • 核心问题是确定选择,即选择合适的信息、词汇来表达给定的信息。

4、传统的模块化生成框架

(1)内容规划 (Content Planning)
通常使用树状的层次结构表示,叶节点表示要生成的内容,树状结构组织内容在文本中的顺序

  • 内容选择(Content Determination):生成啥东西
  • 文本结构化(Text Structuring):表达信息的先后顺序

(2)句子规划(Sentence Planning)

从微观角度决定词汇和句法结构,怎么把内容描述出来。句子规划使用树状图实现,内部节点是句子结构,叶子节点表示单词和词语

  • 句子聚合(Sentence Aggregation):哪些信息需要出现在一个句子里面,哪些要分开来描述,提升文本的流畅性和可读性
  • 词汇化(Lexicalisation): 表达同样的意思有不同的表达方式,用合适的词语去描述信息,如通过上下文、情感等对词语施加约束

(3) 文本实现(Text Realization)

一般使用两种框架实现:

  • 针对小规模生成:手写模板或语法规则的方法,这种方法表示为带有占位符的文本表述:附近有 类型的餐馆 。前面的这句话中包含三个占位符,类似于NER,可以使用任意的实体进行替代:南京附近有小吃类型的餐馆南京大排档。
  • 基于统计的思想:
  • 候选文本(手写)+ 机器学习方法排序 + 模板
  • 大规模数据检索 + 语法规则 (大规模)

5、端到端的自然语言生成框架

6、典型的NLG任务

输入信息的形态

  • Text to Text:机翻、对话、故事、文本摘要、问题生成等
  • Data to Text:输入结构化数据(表格、键值对等),生成一段话
  • Meaning to Text:输入语义抽象表示和逻辑表达式生成一句话
  • Multimodality to Text:多模态输入生成一句话
  • Zero to Text:无约束文本生成。不给定输入,模型自由生成文本。一般用于测试基础模型。

信息转换

开放端语言生成(open-ended LG):输入信息不完整,不足以引导模型得到完善输出语义的任务。具体来说,比如故事生成,仅仅给定开头或者一些片段或者关键字,要求生成具备一定情节的故事。显然模型需要使用外部的信息。这类任务的特点是一对多,同一份输入,可能会出现多份输出。对话生成、长文本生成等都会出现这个问题。

非开放端语言生成 (NOE LG):输入信息在语义上提供了完备甚至更多的信息。比如机翻、GEC等任务,模型的创造性较低,只能生成规定的句子,有明确的评测指标。

7、NLG的可控性

生成模型的可控性是指:模型在给定输入条件下生成不符合预期的文本,这些文本在语法、用词、语义等方面不符合人类语言的规范或者事先给定的约束。

参考文献

《自然语言生成》黄民烈

标签:自然语言,背景,信息,生成,Text,文本,输入
来源: https://www.cnblogs.com/caolanying/p/16607593.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有