ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

知识图谱【一】项目介绍

2021-01-21 23:59:58  阅读:163  来源: 互联网

标签:关系 抽取 图谱 实体 知识 介绍 三元组


content

  • 知识图谱的介绍
  • 基于知识图谱的构建
  • 基于知识图片的问答

知识图谱的介绍

什么是知识图谱

知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。

知识图谱,最早起源于Google Knowledge Graph。知识图谱本质上是一种语义网络 。其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。

通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。

内容案例:
https://magi.com/
https://www.ownthink.com/knowledge.html

知识图谱的应用场景

  1. 数据可视化

  2. 基于图谱的问答系统

  3. 基于图谱的关系推理

  4. 便捷的关系查询,给模型提供更多数据特征

知识图谱构建

三元组

知识图谱的三元组,指的是 <subject, predicate/relation, object> 。同学们会发现很多人类的知识都可以用这样的三元组来表示。例如:<中国,首都,北京>,<美国,总统,特朗普> 等等。

所有图谱中的数据都是由三元组构成

工业场景通常把三元组存储在图数据库中如neo4j,图数据的优势在于能快捷查询数据。
学术界会采用RDF的格式存储数据,RDF的优点在于易于共享数据。

如何构建知识图谱?

构建知识图谱通常有两种数据源

  1. 结构化数据,存储在关系型数据库中的数据,通过定义好图谱的schema,然后按照schema的格式,把关系型数据转化为图数据。

  2. 非结构化数据,采用模板或者模型的方式,从文本中抽取出三元组再入库。

对于非结构化的三元组抽取,主要涉及到2个任务

1、实体识别
2、关系抽取

实体识别主要作用在于抽取subject和object,关系抽取主要作用在于抽取predicate

例如:
中国的首都是北京
<中国,首都,北京>

拜登成功当选2020年美国总统
<美国,总统,拜登>

姚明是中国男篮的主席,曾在NBA火箭队效力
<中国男篮,主席,姚明> <火箭队,队员,姚明>

多个关系是难点

实体识别

subject与object在一个句子中会对应多个实体,所以对于实体识别我们会采用BIO labeling

我们一般把命名实体识别当做一个sequence labeling的任务来实现。这里的label一般包含BIO labeling:
B-XXX: B-ORG, B-LOC,表示一个entity的开始
I-XXX: I-ORG,I-LOC, 表示一个entity的中间与结尾
O: 表示不是entity

有时候也会采取别的方法来实现,例如指针法,根据具体的问题具体分析。

sequence labeling问题的主要模型使用BiLSTM, BERT等模型作为encoder,把文本转化为向量形式。然后使用CRF等layer增加label间的dependency。最后对每个位置针对我们的输入和label做一个cross entropy loss作为训练标注

在这里插入图片描述

关系抽取

识别识别做完后,把抽取出来的实体和原文一起作为输入,判断属于什么关系,通常都会提供好固定的一些关系,因此该任务就是一个分类问题。

Semantic Relation Classification via Convolutional Neural Networks with Simple Negative Sampling
https://arxiv.org/pdf/1506.07650.pdf

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

三元组抽取

上述的方法可行,但是也存在缺点

1、两个模型,效率低下
2、多对实体,会造成关系预测错误

因此,也有同时抽取的方法,如右图的模型结构

End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures

https://www.aclweb.org/anthology/P16-1105.pdf

在这里插入图片描述
Span-based Joint Entity and Relation Extraction with Transformer Pre-training

https://arxiv.org/pdf/1909.07755.pdf

在这里插入图片描述

标签:关系,抽取,图谱,实体,知识,介绍,三元组
来源: https://blog.csdn.net/Tob1o/article/details/112974911

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有