ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

NLP基本任务

2021-05-07 17:04:28  阅读:304  来源: 互联网

标签:基本 NLP github com 语义 任务 https 问答 句子


NLP基本任务

智能问答

多跳问答

(1) https://www.cnblogs.com/conghuang/p/11827142.html
github:https://github.com/THUDM/CogQA
论文:https://zhuanlan.zhihu.com/p/72981392

Q:谁是某部在2003年取景于洛杉矶quality cafe的电影的导演?
系统一:在文中抽取与问题相关的实体名称并扩展节点和汇总语义向量
快速将注意力定位到相关实体 BERT
系统二:利用图神经网络在认知图谱上进行推理计算

(2)分析句子语意进行推断 GNN

有趣的是这篇2019年上发布的论文所取得的成绩,很快被其他模型和方法所赶超。
见:https://hotpotqa.github.io/ 可解释的多跳阅读理解

比如:DDRQA模型

中文KBQA

https://www.tau-nlp.org/compwebq-leaderboard KBQA
基于知识库的复杂问答,ACL 2018

关于semantic parsing和QA的问题,针对复杂问题,提出了complexwebquestion数据集

https://www.it610.com/article/1294759053762830336.htm 知识库问答的复杂问题研究回顾
https://zhuanlan.zhihu.com/p/27141786 揭开知识库问答kbpa面纱

博客:https://zhuanlan.zhihu.com/p/62946533
Github:https://github.com/WenRichard/KBQA-BERT 代码为pytorch版本,暂时放弃
代码下载路径: /home/denglizhi/demo/dlz_nlp_pytorch_python/demo_11/kbqa/KBQA-BERT

数据集: NLPCC2016KBQA数据集
NLPCC: 全称自然语言处理与中文计算会议。 由中国计算机学会(CCF)主办的 CCF 中文信息技术专业委员会年度学术会议,专注于自然语言处理及中文计算领域的学术和应用创新。
NLPCC ICCPOL 2016 KBQA 任务集,
其包含 14 609 个问答对的训练集和包含 9 870 个问答对的测试集。
并提供一个知识库,包含 6 502 738 个实体、 587 875 个属性以及 43 063 796 个 三元组。
知识库文件中每行存储一个事实( fact) ,即三元组 ( 实体、属性、属性值) 。
举例:
三元组: "希望之星"英语风采大赛|||中文名|||“希望之星”英语风采大赛
问答对:
《机械设计基础》这本书的作者是谁?
机械设计基础 ||| 作者 ||| 杨可桢,程光蕴,李仲生
杨可桢,程光蕴,李仲生

CIPS ATT22-冯岩松

检索关键词–>自然语言问题–>稍微复杂的自然语言问题–>再复杂一些
更多问答:聊天、客服、个人助理、智能家居、IBM Watson、AI2、Todai、863
分类:
1)检索类问答:搜索引擎、社区问答、FAQ
2)知识类问答:知识库问答、常识知识问答
3)交互类问答:聊天、任务式对话
4)机器阅读/理解

现有的两种主流问答技术:

语义分析(SP): 结构准确、扩展能力欠缺
1)语义分析
2)传统句法分析
3)文本复述
4)神经网络
信息抽取(IE): 适应性好、问题语义理解不足
1)接近传统检索式问答框架
2)神经网络
技术挑战:
1)如何恰当地表示问题的语义:丰富的提问方式,复杂的提问意图
语义表示、语义分析
2)如何利用(大规模)(开放域)知识库元素来表示问题的语义:大规模、开放域
知识库映射->实体链接、关系抽取
3)需要什么样的知识来解答问题:知识的多样化
->知识融合
4)如何让模型真正可用:探索落地
->可解释性、鲁棒性

其中语义分析:

定义:利用形式化方法表示问题语义
方法:
1)一步到位(直接获得与给定知识库相关的语义表示)
2)两步实现(先通用语义表示,再与具体知识库映射)
语义表示:
1)lambda-Calculus:一阶逻辑表达式
constants:entities,numbers,functions
logical…
2)lambda-DCS,2011
对1)的简化
组成:实体、关系、Join/Intersection操作
3)借助现有句法、语法分析技术,如PCFG、CCG、依存
组合范畴语法(combinatory categorial grammar)

4)query graph
主流的句法分析:结构感知机
研究比较多的是:实体链接、关系抽取/匹配

知识推理

https://github.com/moguizhizi/summary_kr
https://github.com/YiRuohe/Knowledge_Reasoning 代码仓库,还没看

句子对分类任务

MNLI:Multi-Genre Natural Language Inference 多体自然语言推理
给定一对句子,目标是预测第二个句子相对于第一个句子是包含,矛盾还是中立

QQP:Quora Question Pairs 二分类任务
目标是确定在Quora上询问的两个问题在语义上是否等效

QNLI:Question Natural Language Inference
二分类任务。正例是(问题,句子)对,它们确实包含正确答案,而负例是同一段中的(问题,句子),不包含答案。

STS-B:The Semantic Textual Similarity Benchmark 语义文本相似性基准
从新闻头条和其他来源提取的句子对的集合。它们用1到5的分数来标注,表示这两个句子在语义上有多相似。

MRPC:Microsoft Research Paraphrase Corpus
由自动从在线新闻源中提取的句子对组成,并带有人工标注,以说明句子对中的句子在语义上是否等效。

RTE:Recognizing Textual Entailment 识别文本蕴含

SWAG:Situations With Adversarial Generations 对抗生成情境数据集
句子对完整示例,用于评估扎实的常识推理。
给定一个句子,任务是在四个选择中选择最合理的连续性。其中,在SWAG数据集上进行微调时,我们根据如下操作构造训练数据:每个输入序列都包含给定句子(句子A)和可能的延续词(句子B)的串联。

单句子分类

SST-2: Stanford Sentiment Treebank 斯坦福情感树库
单句二分类任务,包括从电影评论中提取的句子以及带有其情绪的人类标注

CoLA:Corpus of Linguistic Acceptability 语言可接受性语料库
单句二分类任务,目标是预测英语句子在语言上是否“可以接受”

问答任务

SQuAD:Stanford Question Answering Dataset 斯坦福问答数据集
给定一个问题以及Wikipedia中包含答案的段落,任务是预测段落中的答案文本范围(start,end)
阅读理解任务首先需要将问题和文本用“[SEP]”连接起来,并输入模型。
再将BERT最后一层向量 [公式] 输入到输出层。具体运算逻辑是初始化输出层的权重矩阵K*H。 K为2,分别是开头start_logit和结尾start_logit.

单句子标注任务

CoNLL-2003 NER:识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。

阅读理解

讯飞杯阅读理解:https://hfl-rc.github.io/cmrc2018/
法研杯阅读理解:
NLPCC阅读理解:http://tcci.ccf.org.cn/conference/2020/cfpp.php

法研杯2020和讯飞杯2020合并为 法研杯阅读理解 CJRC2020
Github:https://github.com/china-ai-law-challenge/CAIL2020/tree/master/ydlj

SQuAD2.0

https://huggingface.co/transformers/custom_datasets.html#question-answering-with-squad-2-0

2)huggingface中的squad2.0的示例

NLP相关中文比赛、中文数据

比赛

全国计算语言学大会 CCL
全国知识图谱与语义计算大会 CCKS = CKGS+CSWS
全国社会媒体处理大会 SMP
全国信息检索学术会议 CCIR
全国机器翻译研讨会 CWMT
自然语言处理青年学者研讨会 YSSNLP
CCF国际自然语言处理与中文计算会议 NLPCC

数据

https://github.com/ownthink/KnowledgeGraphData 1.4亿知识图谱数据
https://github.com/lrs1353281004/Chinese_medical_NLP 医疗相关数据
http://ai.baidu.com/broad/introduction 百度开源的中文数据集

百度开源的数据集
knowledge extraction 主谓宾实体类别及内容抽取
information extraction 符号辅助开放知识表达(SAOKE) 开放域信息提取任务
entity linking 实体链接
reading comprehension: dureader 用于机器学习理解mrc 和问答 qa的大规模现实世界中文数据集

标签:基本,NLP,github,com,语义,任务,https,问答,句子
来源: https://blog.csdn.net/jinselizhi/article/details/116497235

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有