ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

论文阅读笔记(六十五)【ECCV2018】:Deep Cross-Modal Projection Learning for Image-Text Matching

2021-03-01 16:02:57  阅读:284  来源: 互联网

标签:模态 匹配 ECCV2018 Text Image 损失 softmax Modal 文本


Introduction

对于image-text embedding learning,作者提出了 cross-modal projection matching (CMPM) loss 和 cross-modal projection classification (CMPC) loss。前者最小化两个模态特征投影分布的KL散度;后者基于norm-softmax损失,对模态A在模态B上的投影特征进行分类,进一步增强模态之间的契合度。

 

The Proposed Algorithm

Network Architecture

文本特征:Bi-LSTM + 最大池化策略

图像特征:MobileNet、ResNet-152

 

Cross-Modal Projection Matching

假设每对输入为,其中 x 表示图像,z 表示文本,表示文本图像匹配,其匹配概率计算为:

对于一个图像,可能存在多个匹配的文本,在每个mini-batch中,对匹配概率进行正则化,即:,匹配损失为:

匹配损失中可以看出其本质是KL损失,当正确结果 p 比较低时,希望网络做出的预测 q 也比较低。再加上文本图像换位后得到的损失,CMPM损失计算为:

 

Cross-Modal Projection Classification

传统的softmax计算为:

Norm-softmax损失为:

相比之下,norm-softmax采用了权重正则化项,下图直观来说:不同权重向量被归一化到相同长度,分类结果由原先的简化为,使得样本分布与权重向量更加紧密。

传统的softmax损失对原有的特征进行分类,而CMPC损失对A在B上的投影特征进行分类:

 

Experiments

标签:模态,匹配,ECCV2018,Text,Image,损失,softmax,Modal,文本
来源: https://www.cnblogs.com/orangecyh/p/14434071.html

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有