Conversational Machine Comprehension: a Literature Review（2020.11）

2021-06-26 18:57:27 阅读：232 来源： 互联网

标签：Conversational F1 Literature embeddings Review CMC al 对话 et

机器阅读理解(Machine Reading Comprehension (MRC))的大部分研究都是围绕单回合问答(QA)展开的，而多回合问答技术(Conversational Machine Comprehension(CMC))最近也得到了重视，这要归功于神经语言模型(如BERT)在自然语言理解方面的进步，以及大规模会话数据集(如CoQA和QuAC)的引入。本文综合了CMC模型的一般框架，并强调了近年来不同方法的差异，旨在为未来的研究人员提供CMC模型的概要。

1 Introduction

2 Related Work

3 What is Conversational Machine Comprehension?

问题定义: 给定段落 P、对话历史、当前问题 Qi，对话历史形式为question answer pairs {Q1, A1, Q2, A2, ..., Qi−1, Ai−1}，模型预测 answer Ai. The answer Ai可以是a text span (si, ei)或者是 a free-form text {ai,1, ai,2, ..., ai,j} with evidence Ri(Reddy et al., 2019).

4 Multi-Turn Conversational Datasets

CMC研究的激增归功于大规模多轮对话数据集的出现:CoQA (Reddy等，2019年)和QuAC (Choi等，2018年)。

4.1 CoQA

会话QA (CoQA)数据集由来自8k个对话的126k个问题组成

        Dataset preparation: 对话是在从7个不同领域收集的段落上准备的，在这7个领域中，两个用于域外评估(仅用于评估)，而其他5个用于域内评估(训练和评估)。对话中的提问和回答，都涉及到整个上下文。
        • Questions: 问题是虚构的but require sufficient co-referencing and pragmatic reasoning。
        • Answers: 答案的形式自由，其相应的理由在文章中被强调出来。然而，Yatskar(2019)发现，答案是理由的轻微修改版本，因此优化 an extractive model 来预测与最佳答案有最大F1 overlap的 answer span，可以达到的最大 F1为97.8.
        • Dialog features: 大部分对话都涉及到细节(约占所有问题的60%)，但缺乏其他对话功能，如转移话题、澄清或定义。
        • Evaluation: 用词重叠的宏观平均F1得分（Macro-average F1 score）作为评价指标，分别对域内和域外进行计算。

4.2 QuAC

上下文问答(QuAC)包含从14K个对话中获得的100K个问题。

•Dataset preparation:对话来自维基百科不同类型的文章。数据集采用非对称设置，学生只能看到文章的标题和摘要，而老师能看到对话所基于的文章的整个部分。因此，学生试图寻找隐藏问题的信息，老师则提供简短摘录来回答(如果回答不了，则用“No Answer”)。

• Questions:问题是描述性的，高度语境性的，开放式的，因为数据集的不对称的本质，阻止了解释。它们需要充分的共参照和实用推理。

•Dialog features:除了深入挖掘（drilling down），对话框切换到新的主题比CoQA更频繁。但数据集缺乏定义或澄清对话框。

•Answers:答案是extractive span，也可以是Yes/No or ‘No Answer’。除了answer,response还包括额外的对话行为比如 continuation (follow up, maybe follow up, or don’t follow up) and affirmation (yes, no, or neither),就像Qu等人(2019b)和Ju等人(2019)所使用的那样，它为培训提供了额外的有用的对话流信息。此外，对表1中的answer token lengths的分析显示，QuAC的答案更长，这可以归因于其不对称的本质，从而激励探索者提出开放式问题(open-ended questions)来衡量隐藏的文本。

•Evaluation:除了整个集合的宏观平均F1（macro-averaged F1）分数外，QuAC还评估Human Equivalence Score(HEQ)，通过查找系统F1超过人类F1的实例百分比来判断相对于一个普通人的系统性能。HEQ-Q and HEQ-D are thus HEQ scores with the instances as questions and dialogs respectively.

附录A中提供了每个数据集的一般数据集特征和示例。

5 Generic Framework of a CMC Model

Gao等人(2018)将典型的neural MRC model定义为:(1)将问题和上下文编码embeddings;(2)通过推理来确定答案向量；(3)将答案向量decoding成自然语言输出。Huang et al. (2018a)通过添加会话历史建模，调整了CMC中的这些步骤。Qu等人(2019c)提出了一种具有独立模块的ConvQA模型。独立模块用于历史选择和建模。在这些工作的基础上，我们综合了一个CMC模型的通用框架。

一个典型的CMC模型提供了上下文C、当前问题Qi、会话历史，需要生成一个output set Oi。CMC框架如图1所示。

该框架有四个主要组件：

History Selection module: 动态或静态的选择历史对话回合的子集。如果历史选择模块基于动态学习策略(例如Qu等人(2019b) 论文须看)，那么其他模块的反馈可以指导其更新。

Encoder: The lexical tokens of the context passage C, selected conversational turns ${_{Hi}}'$ , and the current question ${Q}'$ 需要被转化为 input embeddings 再输入推理模块.

高水平的encoding 涉及到与上下文无关的词嵌入的转换和组合,called lexical embeddings such as GloVE (Pennington et al., 2014)；intra-sequence contextual embeddings e.g. ELMo (Peters et al., 2018), BERT (Devlin et al., 2019) or RNN, question-aware embeddings, and additional feature embeddings like POS tags (Zhu et al., 2018), history embedding(Qu et al., 2019c) or conversation count. 会话历史通过此模块被整合到contextual input embeddings中，这一过程称为History modeling，是CMC模型最重要的部分。

Contextual Integration layer：在passage、query和history中积累的上下文信息必须被融合以生成query-aware 或者 history-aware contextualized output embeddings. 这个模块的输入通常包含两个(或更多)序列集，或聚集在所有回合，然后融合在每一层，经常交织(Huang et al.， 2018b)。

Output Predictor：

6 Common Trends across CMC models

6.1 Trends in History Selection

6.2 Trends in History Modeling

6.3 Trends in Contextual Reasoning

6.4 Trends in Training Methodology

7 Discussion

8 Conclusion

标签：Conversational,F1,Literature,embeddings,Review,CMC,al,对话,et
来源： https://blog.csdn.net/qq_41098987/article/details/118250370

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

Conversational Machine Comprehension: a Literature Review（2020.11）