ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

知识图谱:12种通用知识图谱项目简介

2022-07-06 23:05:14  阅读:196  来源: 互联网

标签:12 图谱 实体 知识 三元组 维基百科 DBpedia


通用知识图谱大体可以分为百科知识图谱(Encyclopedia Knowledge Graph)和常识知识图谱(Common Sense Knowledge Graph)。

百科知识图谱是百科事实构成的,通常是“非黑即白”的确定性知识。早在2010年微软就开始构建商用知识图谱,应用于旗下的搜索、广告、Cortana等项目。2012年谷歌基于Freebase正式发布Google Knowledge Graph。

目前微软和谷歌拥有全世界最大的通用知识图谱,脸书拥有全世界最大的社交知识图谱。而阿里巴巴和亚马逊则分别构建了商品知识图谱。

相比之下,国内知识图谱创业公司则从智能客服、金融、法律、公安、航空、医疗等“知识密集型”领域作为图谱构建切入点。除了上述商业通用图谱以外,DBpedia、Yago、Wikidata、BabelNet等开放域百科知识图谱也蓬勃发展。

另一种常识知识图谱,则集成了语言知识和概念常识,通常关心的是带有一定的概率的不确定事实,因此需要挖掘常识图谱的语言关联或发生概率。下面,我们将对两类知识图谱做详细介绍。

01 百科知识图谱

百科知识图谱构建模式可以分为两类。一类是对单百科数据源进行深度抽取,典型代表有DBpedia。另一类是结合了语言知识库(如WordNet)后,出现了一大批兼具语言知识的百科知识库,如Google Knowledge Graph后端的Freebase、IBM Waston后端的YAGO,以及BabelNet。

此外,还有世界最大开放知识库WikiData等。下面我们分别进行介绍。

1. DBpedia

DBpedia是始于2007年的早期语义网项目,也就是数据库版本的多语言维基百科。DBpedia采用了严格的本体设计,包含人物、地点、音乐、组织机构等类型定义。从对维基百科条目和链接数据集中抽取包括abstract、infobox、category等信息。

DBpedia采用了RDF语义框架描述,DBpedia与Freebase、OpenCyc、BioRDF等其他数据集也建立了实体映射关系,目前拥有127种语言的超过2800万个实体与30亿个RDF三元组。根据抽样评测,RDF三元组的正确率达到88%[1]。

2. YAGO

YAGO由德国马普研究所于2007年研制,集成了维基百科、wordNet和GeoNames三个来源的数据,是IBM沃森大脑的后端知识库之一。YAGO利用规则对维基百科实体的infobox进行抽取,通过实体类别推断构建“概念-实体”、“实体-属性”间的关系。

另外YAGO也融合了语言知识,比如将维基百科标签与WordNet中的概念(Synset)进行映射,以WordNet概念体系完成百科知识本体构建。很多知识条目也增加了时空属性维度描述。

目前,YAGO拥有10种语言约459万个实体,2400万个知识三元组。YAGO2包含了100个以上关系类型,20万实体类别,300万实体和2.2亿知识三元组等。通过人工评测,YAGO中三元组的正确率约为95%[2]。

3. Freebase

Freebase是Google Knowledge Graph的早期版本,由MetaWeb公司在2005年建立,通过开源免费共享方式众筹数据[3]。

Freebase通过对象、事实、类型和属性进行知识表示,其中一个重要的创新在于采用复合值类型(Compound Value Type,CVT)来处理多元关系,也就是说一个关系包含多个子二元关系。这样采用CVT唯一标识扩展了关系表示的能力。目前Freebase正在向Wikidata上迁移以进一步支持谷歌语义搜索。

4. BabelNet

BabelNet是目前世界上最大的多语言百科知识库之一,它本身可被视为一个由概念、实体、关系构成的语义网络[4]。BabelNet采用类似YAGO的思路,将维基百科页面标题与WordNet概念进行映射,通过维基百科跨语言页面链接以及机器翻译系统,为WordNet提供非英语语种链接数据。

目前BabelNet共拥有271个语言版本,包含了1400万个概念、36.4万个词语关系和3.8万个链接数据,拥有超过19亿个RDF三元组。BabelNet中每个概念包含所有表达相同含义的不同语言的同义词。由于BabelNet中的错误来源主要在于维基百科与WordNet之间的映射,目前的映射正确率大约在91%。

5. Wikidata

Wikidata顾名思义,与维基百科有着千丝万缕的联系。它由维基媒体基金会发起和维持,目前是一个可以众包协作编辑的多语言百科知识库。Wikidata中的每个实体存在多个不同语言的标签、别名、描述,通过三元组声明表示每一个条目,比如实体“London-中文标签-伦敦”。

此外,Wikidata利用参考文献标识每个条目的来源或出处,通过备注处理复杂多元表示,刻画多元关系。截至2017年,Wikidata能够支持近350种语言、2500万个实体及7000万个声明,支持数据集的完全下载[5]。

02 常识知识图谱

常识知识图谱除了语言知识库以外,还包括Cyc、ConceptNet、NELL以及Microsoft ConceptGraph。现阶段百科和常识知识图谱的融合越来越多,下面详细介绍一下。

6. Cyc

Cyc是1984年由Douglas Lenat创建的,作为知识工程时代一项重要进展,最初目标是建立人类最大的常识知识库。Cyc知识库主要由术语断言组成,术语包含概念、关系和实体的定义。而断言用来建立术语间关系,通过形式化谓词逻辑进行描述,包括事实描述和规则描述。

Cyc主要特点是基于形式化语言表示方法来刻画知识,支持复杂推理,但是也导致扩展性和灵活性不够,现有Cyc知识库包括50万条术语和700万条断言。

7. ConceptNet

ConceptNet是一个大规模的多语言常识知识库,起源于一个MIT媒体实验室众包项目Open Mind Common Sense(OMCS),其本质为一个描述人类常识的大型语义网络[6]。

ConceptNet侧重于用近似自然语言描述三元组知识间关系,类似于WordNet。ConceptNet中拥有如“IsA、UsedFor、CapableOf”等多种固定关系,允许节点是自然语言片段或句子,但关系类型确定有利于降低知识获取的难度。

ConceptNet知识表示框架包含了如下要素:概念、词汇、短语、断言和边。其中断言描述概念间的关系,类似于RDF中的声明,边类似于RDF中的属性,一个概念包含了多条边,而一条边可能有多个来源和附加属性。

ConceptNet目前拥有304个语言的版本,超过390万个概念,2800万个断言,知识三元组正确率约为81%,支持数据集的完全下载。

8. Microsoft ConceptGraph

Microsoft ConceptGraph前身是Probase,以概念层次体系(Taxonomy)为核心,主要包含的是概念间关系,如“IsA”“isPropertyOf”“Co-occurance”以及实例(等同于上文中的实体)。

其中每一个关系均附带一个概率值,用于对概念进行界定,因此在语义消歧中作用很大。比如说概念电动汽车,实体可以为特斯拉,那么通过IsA关系描述中“汽车”或“人名”,加上时间属性,保证了语义理解的正确性。

目前,Microsoft ConceptGraph拥有500多万个概念、1200多万个实例以及8500万个IsA关系(正确率约为92.8%)。支持HTTP API调用[7]。

9. NELL

NELL(Never-Ending Language Learner)是卡内基梅隆大学基于互联网数据抽取而开发的三元组知识库。它的基本理念是给定少量初始样本(少量概念、实体类型、关系),利用机器学习方法自动从互联网学习和抽取新的知识,目前NELL已经抽取了400多万条高置信度的三元组知识。

03 中文类知识图谱

中文类知识图谱对于中文自然语言理解至关重要,特别是中文开放知识图谱联盟(OpenKG)的努力,推动了中文知识图谱普及与应用[8]。

OpenKG借鉴了Schema.org知识众包模式,搭建了中文知识图谱建模、推理、学习的可解释接口规范cnSchema,构建中文知识图谱核心数据结构,包括数据(实体、本体、陈述)、元数据(版本管理、信息溯源、上下文),支持RDF逻辑层、JSON-LD存储层和计算层三个层次的知识表示。

OpenKG技术平台目前已经包含了Zhishi.me、CN-DBPedia、PKUBase、XLore,以及常识、医疗、金融、城市、出行等15类开放中文知识图谱。下面我们介绍几个常见的中文知识图谱项目。

10. Zhishi.me

Zhishi.me是构建中文链接数据的第一份工作,借鉴DBpedia的思路,对百度百科、互动百科和中文维基百科中的信息进行抽取,然后对多源同一实体进行对齐和链接[9]。

此外,结合社交站点的分类目录及标签云,Zhishi.me也融合中文模式(Schema),包含三种概念间关系,即equal、related与subClassOf关系。Zhishi.me中拥有约40万个中文概念、1000万个实体与1.2亿个RDF三元组,所有数据可以通过在线查询得到。人工评测正确率约为84%,并支持数据集的完全下载。

11. XLore

XLore是一个大型的中英文知识图谱,它旨在从各种不同的中英文在线百科中抽取并生成RDF三元组,并建立中英文实体间的跨语言链接[10]。目前,XLore大约有246万个概念、44万个关系或属性、1600万个实体,详细情况可以参考其官方网站。

12. CN-DBpedia

CN-DBpedia是目前规模最大的开放百科中文知识图谱之一,主要从中文百科类网站(如百度百科、互动百科、中文维基百科等)页面中提取信息[11]。

CN-DBpedia的概念本体复用已有成熟的概念体系(如DBpedia、YAGO、Freebase等)。针对实体正文内容涉及的属性构建一个抽取器(分类器),从百科文本抽取内容,经过滤、融合、推断等操作后,最终形成高质量的结构化数据。

目前CN-DBpedia涵盖1600万以上个实体、2.2亿个关系,相关知识服务API累计调用量已达2.6亿次。

在中文领域,还有上交大发布的知识图谱AceKG,超1亿个实体,近100G数据量,使用Apache Jena框架进行驱动[12]。思知平台发布的ownthink通用知识图谱[13]。此外,百度公司在过去多年的实践中,内部积累通用/领域/多源异构类知识图谱规模已经达到亿级实体和千亿级属性关系。

相关参考:

[1] /develop/datasets

[2] /departments/databases-and-information-systems/research/yago-naga/

[3] /package/freebase

[4] /

[5] /wikidatawiki/

[6] /~hugo/conceptnet/

[7] http://concept.research.microsoft.com

[8] /

[9] /

[10] /

[11] http://kw.fudan.edu.cn/cndbpedia/intro/

[12]

[13] /

转载源
转载源

标签:12,图谱,实体,知识,三元组,维基百科,DBpedia
来源: https://www.cnblogs.com/-402/p/16452861.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有