SRN 语义推理网络

2021-10-22 15:05:24 阅读：213 来源： 互联网

发现基于RNN的方法存在一些明显的缺点，如时间依赖的解码方式和语义上下文的单向串行传输，这极大地限制了语义信息的帮助和计算效率。为了减轻这些限制，我们提出了一种新颖的端到端可训练框架，该框架称为语义推理网络（SRN）

什么是空间规整( spatial regularization）?
为什么要做空间规整？因为标签之间没有标注空间信息，难以得到标签之间潜在的空间关系。

如何做空间规整？在Learning Spatial Regularization with Image-level
Supervisionsfor Multi-label Image
Classification一文中，作者提出了学习所有标签之间的注意力图（attention
maps），挖掘标签之间的潜在关系，结合正则化的分类结果和ResNet101网络的分类结果，提高了图像分了的表现。rocks置信度从0.405提高到了0.526，
sun从0.339提高到了0.519. 其他类别也有相应的提高。

SRN是端到端可训练的场景文字识别网络，由四部分组成：基础网络Backbone、

并行的视觉特征提取模块(PVAM)

、全局语义推理模块(GSRM) 和

视觉语义融合的解码器(VSFD)。

给定一张输入的文本图像，基于ResNet50 + Transformer unit的Backbone从中提取出视觉2D feature map V；

之后PVAM会针对每个目标字符获取其相应的视觉特征G；

GSRM会基于视觉特征G获取全局语义信息，并转化为每个目标字符的语义特征S；

最后VSFD融合对齐的视觉特征和语义特征，预测出相应字符。在训练阶段和推断阶段，每个序列中各个字符之间是并行。

SRN在多个公开数据集上进行了效果验证，包括ICDAR13、ICDAR15，IIIT5K，SVT，SVTP，CUTE80数据集，在准确度上取得了SOTA或者可比的结果。

同时，也在中文长词数据集合TRW上与主流方法做了精度对比，证明了该方法对于中文的适用性。图 6中展示了语义推理模块的使用与否在中英文上的可视化对比效果。

标签：字符,标签,语义,SRN,视觉,推理
来源： https://blog.csdn.net/sinat_37574187/article/details/120905975

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

SRN 语义推理网络