【深度学习】DeepMind关系推理网络

2020-12-28 10:02:12 阅读：324 来源： 互联网

【深度学习】DeepMind关系推理网络

Santoro, Adam, et al. “A simple neural network module for relational reasoning.” arXiv preprint arXiv:1706.01427 (2017).

简介

本文用一个普适的关系网络RNs（Relation Networks）来解决“关系推理”(relational reasoning)问题。其使用的模型结构简单，效果远胜已有算法，甚至超出人类表现。

论文于2017年6月5日在arxiv发布。由于其原理简明，爱好者们很快给出了pytorch实现、keras实现以及tensorflow实现。

关系推理问题

关系推理问题由三部分组成。

一系列事实，即推理的素材。可以是：- 一张图片：红色的球，黄色的圆柱，蓝色的立方体。- 一组场景信息：每个物体的类别，颜色，尺寸，位置。- 几个句子：Mike拿着足球。Mike去了办公室。- 一段数据：几个球在物理系统中弹跳，其中某几个有隐形杆相连。给出这些球的实时位置。1. 一个问题，作为推理的提示。由于强调关系，这些问题都涉及不止一个对象。例如：- 红色和黄色物体是否为同一类？- 哪个物体离蓝色球最远？- 足球在哪里？- 那些物体在运动时是相连的？1. 一个回答，即推理的结果。例如：- (红色和黄色物体)是(同一类)。- 黄圆柱。- (足球在)办公室。- A球和B球(是相连的)。在训练集中，每组数据包含1.2.3；在测试集中，每组数据包含1.2，要求回答出3。
说明：问题和回答不局限于自然语言。也可能使用结构化数据表示。

网络结构

系统

推理网络可以用下图表述。
这里写图片描述

事实

    O



   O


O和**问题**




    Q



   Q


Q都经过不同的embedding网络提取特征变为




    o


    ,


    q



   o,q


o,q。这l两者构成系统的**processing**部分。

对于不同类别的输入，embedding可能是CNN（图像）或LSTM（自然语言）。

两个特征送入reasoning部分，推理出回答

    a



   a


a。

传统的推理网络中，reasoning部分可能是MLP，LSTM，或者带有attention的LSTM。

关系网络RN

本文使用关系网络（Relational Network）实现reasoning部分。
这里写图片描述

其理念非常直观

把事实特征分解成一系列对象

     o


     =


     {



      o


      1



     ,



      o


      2



     .


     .


     .



      o


      n



     }



    o=\{o_1, o_2...o_n\}


 o={<!-- -->o1,o2...on}</li><li>把对象两两配对，和问题特征




     q



    q


 q组成三元组</li><li>将三元组送入一个统一的MLP网络




     g



    g


 g</li><li>得到的结果相加，再次送入一个MLP网络




     f



    f


 f，输出回答




     a



    a


 a</li>

可以用一个公式表达：

     a


     =


     f


     (


     ∑


     g


     (



      o


      i



     ,



      o


      j



     ,


     q


     )


     )



    a=f(\sum g(o_i,o_j,q))


 a=f(∑g(oi,oj,q))

RN的这种结构明确地表达了关系推理的两个思想：

最终答案和成对的对象有关1. 问题本身也会影响如何考察对象对
举例：如果问题中包含“多远”，则应该关注两个对象的距离；如果问题中包含“和…颜色相同”，则应该关注两个对象的颜色。

具体实现

本文的实验设置非常详尽，具体可参看附录部分。这里只概述几个例子，大致建立基本概念。

特征提取

图像

不同任务均使用CNN对图像进行编码。差别仅在于卷积层具体参数。

使用如下步骤获得对象

     o


     i




   o_i


oi

原始图像归一化尺寸
经过一个卷积层获得

     p


     ×


     q


     ×


     k



    p\times q\times k


 p×q×k的结果</li>- 再经过Batch Normalization层和ReLU<li>结果中每个像素位置的




     k



    k


 k维特征 + 该像素归一化位置 = 




     k


     +


     2



    k+2


 k+2维





      o


      i




    o_i


 oi<sup class="footnote-ref">[1](#fn1)</sup></li>

试验中k=24。

自然语言

首先每个单词经过特征提取网络转化为32位特征。
之后把句子经过LSTM转换成特征，LSTM的单元数为32，128或256。

对于由多个句子组成的事实，每个句子的特征+该句子在事实集合中位置 = 对象

     o


     i




   o_i


oi；<br> 对于**问题**，该问句的特征即为




    q



   q


q。

结构化数据

将每个物体的结构化数据（位置、颜色、尺寸、材质）直接作为对象特征。

RN网络

不同任务使用RN网络结构类似，以下举出一例。

    g



   g


g：4层MLP，每层256个节点；ReLU激活。<br> 




    f



   f


f：3层MLP，各层节点256-256-29；50%的drop-out；ReLU激活；softmax输出各种答案的概率。

结论

比起已有系统的特征提取部分（ResNet，VGG），本文的特征提取模型简单，却仍取得更好效果。这证明：

关系推理问题的难点在“推理”部分，而非信息处理部分。

对于非关系推理类问题，本文系统与已有系统表现类似；但在关系推理问题中，本文远远胜出。说明：

本文RN网络的成对结构是解决关系推理的关键。

作者在未来工作的展望中，希望把RN结构应用到更广泛的问题中，例如强化学习的复杂场景理解，社交网络建模，抽象问题求解等。还可以利用attention机制缩减对象对的规模，以节约资源。

本文的一作Adam Santoro(ID: asantoro)在这个reddit讨论串中阐明了这一点。 ↩︎

标签：关系,对象,网络,问题,DeepMind,深度,RN,推理
来源： https://www.cnblogs.com/hy627/p/14200221.html

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

【深度学习】DeepMind关系推理网络

【深度学习】DeepMind关系推理网络

简介

关系推理问题

网络结构

系统

关系网络RN

具体实现

特征提取

图像

自然语言

结构化数据

RN网络

结论