ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

TUDataset: A collection of benchmark datasets for learning with graphs

2021-05-17 15:31:39  阅读:314  来源: 互联网

标签:TUDataset datasets 标签 benchmark graphs 代表 图形 数据 节点


TUDataset: A collection of benchmark datasets for learning with graphs
GitHub:https://github.com/chrsmrrs/tudataset

2.TUDATASET集合包含www.graphlearning.io上提供的120多个数据集。

2.1 Datasets

Small molecules. 小分子。一类常见的图形数据集由带有类别标签的小分子组成,代表例如药物发现项目中确定的毒性或生物活性。这里,一个图代表一个分子,即节点代表原子,边代表化学键。因此,标签编码原子和键的类型,可能有额外的化学属性。图形模型不同,例如,氢原子是否由节点明确表示,芳香环中的键被相应地注释。
Bioinformatics生物信息学。数据集DD, ENZYMES 以及PROTEINS代表大分子。Borgwardt等人(2005年)介绍了一种蛋白质的图形模型,其中节点代表二级结构元素,并由它们的类型,即螺旋、薄片或转弯,以及几个物理和化学信息来注释。如果两个节点是氨基酸序列的邻居或者是空间中三个最近的邻居之一,则一条边连接两个节点。使用这种方法,数据集酶来自BRENDA数据库(Schomburg等人,2004年)。在这里,任务是将酶分配到6个EC顶级类别之一,这反映了催化的化学反应。类似地,数据集蛋白质来源于(Dobson & Doig,2003),任务是预测蛋白质是否是酶。Shervashidze等人(2011年)使用的数据集DD基于相同的数据,但包含图形,其中节点表示单个氨基酸,边缘表示它们的空间邻近性。
temporal graphs最近,Oettershagen等人(2019)考虑了时间图,其中边缘表示两个个体在某个时间点的接触或相互作用。在研究传播过程时,例如流行病、谣言或假新闻的传播,这些图表很有意义。我们提供了从TUMBLR (Rozenshtein等人,2016)、DBLP和FACEBOOK (Viswanath等人,2009)以及麻省理工学院(Eagle & Pentland,2006)、一所高中的学生和传染病展览(Isella等人,2011)的参观者之间的联系中获得的时态图形分类数据集。

5.实验评估

数据集。我们使用了DEEZER_EGO_NETS、GITHUB _ STARGAZERS、ENYMES、IMDB-BINARY、IMDB-MULTI、MCF-7、MOLT-4、NCI1、PROTEINS、REDIT-BInary、REDDIT_THREADS、TWITCH_EGOS、UACC257图形分类数据集。此外,我们还使用了ALCHEMY、QM9、ZINC(多目标)回归数据集。数据集统计见网站和附录中的表4。我们选择不使用小数据集的连续节点特征(如果可用)和ALCHEMY数据集的3D坐标,只提供基于图形结构和离散标签的基线结果。在QM9数据集的情况下,我们紧密复制了Gilmer等人(2017)的(连续)节点和边缘特征。
在这里插入图片描述

标签:TUDataset,datasets,标签,benchmark,graphs,代表,图形,数据,节点
来源: https://blog.csdn.net/qq_40515250/article/details/116934892

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有