VQA

声网 VQA：将实时互动中未知的视频画质用户主观体验变可知2022-06-27 23:34:31

在实时互动场景中，视频画质是影响观众体验的关键指标，但如何实时评价视频的画质一直是个行业难题，需要将未知的视频画质用户主观体验变成可知。未知的部分往往是最需要攻克的，声网也一直在持续探索符合实时互动领域的视频画质评价方法，经过声网视频算法专家的持续钻研，正式推出了业内首
VQA2021年之后的方向启蒙：Human-Adversarial Visual Question Answering 论文笔记2021-12-23 20:02:28

VQA2021年之后的方向启蒙：Human-Adversarial Visual Question Answering 论文笔记一、Abstract二、引言三、相关工作3.1 VQA模型加压测试3.2 之前达到饱和的模型3.3 对抗性的数据集四、AdVQA4.1 Human-Adversarial Annotation Statistics 五、模型评估5.1 Baselines and M
论文笔记：How Transferable are Reasoning Patterns in VQA?2021-12-18 23:01:34

目录摘要：一、介绍二、相关工作三、Analysis of Reasoning Patterns 3.1. Visual noise vs. models with perfect-sight 3.3、Attention modes and task functions 摘要：视觉问答(VQA)任务因为具有语言偏差和捷径偏差的问题，往往会阻碍模型学习真正的依靠
【论文阅读】Beyond OCR + VQA: 将OCR融入TextVQA的执行流程中形成更鲁棒更准确的模型2021-11-26 09:01:17

论文题目：Beyond OCR + VQA: Involving OCR into the Flow for Robust and Accurate TextVQA 论文链接：https://dl.acm.org/doi/abs/10.1145/3474085.3475606 一、任务概述视觉问答任务(VQA)：将图像和关于图像的自然语言问题作为输入，并生成自然语言答案作为输出。文
『论文笔记』Roses are Red, Violets are Blue... But Should VQA expect Them To?2021-10-27 17:02:30

Roses are Red, Violets are Blue… But Should VQA expect Them To? 一句话总结提出新的benchmark GQA-OOD，旨在划分高频及低频(OOD)样本并测量模型在不同条件(in-distribution、out-of-distribution)下的性能一点题外话本文的题目改编自英文中一首脍炙人口的打油诗： ”
文献阅读_image capition_CVPR2021_VinVL: Revisiting Visual Representations in Vision-Language Models2021-08-25 11:35:08

VinVL: Revisiting Visual Representations in Vision-Language Models 老样子边看边写的这篇是Oscar班子的续作，从另一个角度优化了VLP，提出了VinVL，提出了Oscar+ 吐槽：不知道是这个组还是MS的文风啊。。科普： Visual Genome：https://zhuanlan.zhihu.com/p/102403048 class-aware
Check It Again: Progressive Visual Question Answeringvia Visual Entailment2021-07-22 21:01:31

Check It Again: Progressive Visual Question Answeringvia Visual Entailment Abstract 虽然复杂的视觉问答模型取得了显着的成功，但它们往往只根据问题和答案之间的表面相关性来回答问题。最近已经开发了几种的方法来解决这个语言先验问题。然而，他们中的大多数人根据一个最佳
【论文小综】基于外部知识的VQA（视觉问答）2021-07-15 16:35:17

我们生活在一个多模态的世界中。视觉的捕捉与理解，知识的学习与感知，语言的交流与表达，诸多方面的信息促进着我们对于世界的认知。作为多模态领域的一个典型场景，VQA旨在结合视觉的信息来回答所提出的问题。从15年首次被提出[1]至今，其涉及的方法从最开始的联合编码，到双线性融合，注
2021：多任务预训练的跨模态自注意力的医学视觉问答Cross-Modal Self-Attention with Multi-Task Pre-Training for Medical VQA2021-07-01 17:32:46

摘要由于缺乏标签的数据，现有的医学视觉问答往往依赖于转移学习获取图像特征表示，使用视觉和语言特征跨模态融合实现与问题相关的答案预测。这两个阶段单独执行，没有考虑预训练特征的跨模态融合的相容性和适用性。因此我们将图像特征预训练重新定义为一个多任务学习范
谷歌推出UGC内容的盲视频质量评估方法和基准测试2021-07-01 13:34:55

#视频质量评估# UGC-VQA: Benchmarking Blind Video Quality Assessment for User Generated Content 针对用户生成内容的盲视频质量评估随着视频拍摄设备的普及，用户上传内容在视频网站上也越来越多，业界迫切需要有计算量低准确率高的视频质量评价方法。谷歌在常用的763个
文献阅读（十三）：A survey of deep learning-based visual question answering_黄同愿2021-04-25 20:58:57

文献阅读（十三）：A survey of deep learning-based visual question answering_黄同愿 Abstract1 Introduction2 Problems and challenges2.1.1图片标题2.1.2视觉问题生成2.1.3视觉对话 3 Visual question answering3.1卷积神经网络3.2递归神经网络3.3特征融合3.4注意机制3.5知
【文献阅读】LRTA——图网络解释VQA的答案生成过程（W. Liang等人，NeurIPS，2020）2020-12-03 11:32:04

一、背景文章题目：《LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision for Visual Question Answering》这篇文章的核心内容只有5页，但是做的挺好，方法很新，读起来也非常容易理解。文章下载地址：https://arxiv.org/pdf/2011.10731.pdf 文章引用
VQA背景概括（简介、方法、数据集）2020-08-20 04:03:13

本文为论文《Visual Question Answering: A Survey of Methods and Datasets》的阅读笔记，论文是17年的，所以暂时不包括近三年的进展，后续学习过程中将逐渐更新。 Abstract VQA是一项结合了CV和NLP的任务，给定一张图片和一个问题，它的目标是从图片的视觉信息中推理出问题的正确答案。
解释与注意：用于视觉问答的一场获得注意的两人游戏模型《Explanation vs Attention: A Two-Player Game to Obtain Attention for VQA》2020-01-30 12:40:02

目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一，本文有点长，请耐心阅读，定会有收货。如有不足，随时欢迎交流和探讨。一、文献摘要介绍 In this paper, we aim to obtain improved attention for a visual question answering
VQA视觉问答基础知识2019-10-31 20:02:18

本文记录简单了解VQA的过程,目的是以此学习图像和文本的特征预处理、嵌入以及如何设计分类loss等等. 参考资料: https://zhuanlan.zhihu.com/p/40704719 https://www.youtube.com/watch?v=ElZADFTer4I https://www.youtube.com/watch?v=cgOmpgcELPQ https://tryolabs.com/blog/201

ICode9

声网 VQA：将实时互动中未知的视频画质用户主观体验变可知2022-06-27 23:34:31

VQA2021年之后的方向启蒙：Human-Adversarial Visual Question Answering 论文笔记2021-12-23 20:02:28

论文笔记：How Transferable are Reasoning Patterns in VQA?2021-12-18 23:01:34

【论文阅读】Beyond OCR + VQA: 将OCR融入TextVQA的执行流程中形成更鲁棒更准确的模型2021-11-26 09:01:17

『论文笔记』Roses are Red, Violets are Blue... But Should VQA expect Them To?2021-10-27 17:02:30

文献阅读_image capition_CVPR2021_VinVL: Revisiting Visual Representations in Vision-Language Models2021-08-25 11:35:08

Check It Again: Progressive Visual Question Answeringvia Visual Entailment2021-07-22 21:01:31

【论文小综】基于外部知识的VQA（视觉问答）2021-07-15 16:35:17

2021：多任务预训练的跨模态自注意力的医学视觉问答Cross-Modal Self-Attention with Multi-Task Pre-Training for Medical VQA2021-07-01 17:32:46

谷歌推出UGC内容的盲视频质量评估方法和基准测试2021-07-01 13:34:55

文献阅读（十三）：A survey of deep learning-based visual question answering_黄同愿2021-04-25 20:58:57

【文献阅读】LRTA——图网络解释VQA的答案生成过程（W. Liang等人，NeurIPS，2020）2020-12-03 11:32:04

VQA背景概括（简介、方法、数据集）2020-08-20 04:03:13

解释与注意：用于视觉问答的一场获得注意的两人游戏模型《Explanation vs Attention: A Two-Player Game to Obtain Attention for VQA》2020-01-30 12:40:02

VQA视觉问答基础知识2019-10-31 20:02:18