首页 > 其他分享> 文章详细

2021-CVPR-CDFI: Compression-Driven Network Design for Frame Interpolation

2021-07-03 12:03:52 阅读：251 来源： 互联网

标签：视频 Network 插值 Frame CDFI AdaCoF 方法模型

2021-CVPR-CDFI: Compression-Driven Network Design for Frame Interpolation

2021-CVPR-CDFI: Compression-Driven Network Design for Frame Interpolation

2021-CVPR-CDFI: Compression-Driven Network Design for Frame Interpolation

论文简介

论文名称

CDFI: Compression-Driven Network Design for Frame Interpolation
CDFI：用于插帧的压缩驱动的网络设计

作者信息

作者（所有）：Tianyu Ding1∗Luming Liang2∗†Zhihui Zhu3Ilya Zharkov2
作者学校/研究机构（一作，英文）：Johns Hopkins University
作者学校/研究机构（一作，中文）：约翰霍普金斯大学
第一作者近三年内的代表作：
1、Noisy Dual Principal Component Pursuit
2、Neural network compression via sparse optimization
3、Half-Space Proximal Stochastic Gradient Method for Group-Sparsity Regularized Problem

代码

https://github.com/tding1/CDFI

论文内容

摘要

目前缺点：基于DNN的插帧，在给定两个连续帧的情况下生成中间帧，通常以来比较大的模型结构，这阻止了这些方法部署在资源有限的系统上，例如移动设备。
本文改进：提出了一种用于视频内插帧的压缩驱动网络设计，压缩了最近提出的AdaCoF模型，并验证了10倍压缩的AdaCoF和之前的表现效果差不多。然后引入一个多分辨率的扭曲模型来提高压缩模型性能—改善细节。

Introduction

第一段：视频帧插值是一种较低级的计算机视觉任务，指的是在序列的实际帧之间生成中间帧(不存在的)，能够大幅度提高时间分辨率。它在许多应用中发挥着重要的作用，包括帧率上转换、慢动作生成和新视图合成。虽然这是一个基本的问题，但现实世界视频中的复杂运动、遮挡和特征变化的挑战是难以以透明的方式估计和预测的。
第二段：近年来，在这一领域开展了大量的研究，特别是基于深度神经网络(deep neuralnetworks, DNN)的研究，因为其在运动估计、遮挡推理和图像合成等方面有很好的结果。
方法一：光流。但是现有方法集成一个预先训练的流程模型会使整个架构变得笨拙，而仅使用像素级信息的面向任务的流程仍然不足以处理复杂的遮挡和模糊。
方法二：基于核的方法。通过对每个输出像素周围的局部patches进行卷积运算来合成中间帧。缺点：大运动处理，计算代价
方法三：结合了基于流的方法和基于核的方法的优点，但是网络要重得多，因此限制了它们的应用
第三段：越来越多的基于DNN的复杂模型被设计用于视频帧插值。大多数方法是大型模型难训练，推理慢，不太可能部署。也有一部分轻量级方法，表现不太好，缺乏可移植性的特定设计。
第四段：提出了一种用于视频插值（CDFI）的压缩驱动的网络设计，该设计利用了模型压缩的优势。据我们所知，我们是第一个探索最先进的DNN视频插值模型中出现的过度参数化问题的人。
具体来说，我们通过基于稀疏化优化的细粒度剪枝压缩了最近提出的AdaCoF，结果表明10×compressed AdaCoF仍然能够保持与之前相似的基准性能，这表明原始模型中有相当多的冗余。
模型压缩为我们提供了两个直接的好处：
（i）它可以帮助我们深入理解模型的体系结构，从而促进高效的设计；
（ii）所获得的紧凑模型为进一步改进提供了更多空间，有可能将性能提升到一个新水平。为使后者更合理，我们注意到AdaCoF能够处理大运动，而不能处理遮挡或保留更精细的细节，我我们通过引入多分辨率扭曲模块改进了模型，该模块利用了输入帧的特征金字塔表示帮助图像合成。
因此，我们最终的模型仅为初始大小的四分之一，在三个基准数据集上以较大的幅度(在Middlebury数据集上超过1db的PSNR)优于AdaCoF。注意，通常很难在原来的重量级模型上实现相同的改进。实验表明，我们的模型也优于其他最先进的方法。
第五段：简而言之，我们提出了一个用于视频插值的压缩驱动框架，在该框架中我们回顾了对过度参数化的反思。我们首先压缩AdaCoF并获得一个紧凑的模型，但性能类似，然后我们在它的基础上进行改进。CDFI如图2所示。这种回顾性的方法带来了优越的性能，可以很容易地转移到任何其他基于dnn的帧插值算法

Related work

2.1视频帧插值
以下来自CVPR 2021 FLAVR方法中的related work介绍
基于视频帧插值的方法博主自行简单介绍。基于相位的视频插帧的方法把每一帧看作小波线性组合，然后使用经典的插值[36]或基于深度学习的算法[36]跨多尺度金字塔级插值每个相位和幅度。
基于光流的方法使用光流预测网络，例如PWC-Net，去计算两帧之间的双向光流并结合遮挡mask以及单目深度图解决遮挡问题。上下文扭曲，softmax splatting，循环约束和元学习也已被证明是改善此类方法性能的有效工具。虽然在生成真是中间帧中有巨大成功，但是也由于光流估计器的表现被限制了精度，因为光流在遮挡以及大运动的效果处理不好，在输出会有比较大的伪影。同样假设两帧之间的运动是匀速直线运动，这和真实世界的运动方式差别比较大。最近的一些方法提出二次warping的方法，但是增大了模型的复杂度以及推理时间。
基于kernel的方法，从另一方面来说，通过为每一帧预测空间自适应的filter来跳过光流计算。大多数工作只考虑对相邻的patch进行重新采样，使用较大的内核来增加接收域会导致大量内存和推理时间开销。CAIN 使用通道注意力作为帧插值的合适成分，但无法明确捕获输入帧之间的复杂时空相关性。我们提出了一个端到端的模型解决以上的所有问题，通过学习通过3D时空卷积推理运动轨迹和特性，同时联合优化输出质量和推理时间，来直接预测给定视频的中间帧。
2.2基于剪枝的模型压缩
关于这一部分涉猎不多，避免误会还是希望大家去看原文。

The Proposed Approach

给定两个视频帧，通常是估计t=0.5的中间帧。现在以最近提出的AdaCoF 为例介绍提出的CDFI框架。
3.1动机Motivation
首先简介AdaCoF，介绍它的关键组件，一个空间自适应可分离的DConv操作。为了保证输入输出大小填充：

F是可变形kernel的大小（图应该画的比较少，看代码）：

3.3改进特征金字塔，图像合成网络和路径选择机制。AdaCoF中通过一个Sigmod掩码V1来混合两个扭曲帧，我们认为，仅使用原始像素信息，在输入帧中丢失上下文细节是不可避免的-因为它缺乏特征空间的指导。相反，我们从U-Net的编码器部分提取输入帧的特征金字塔表示。具体来说，根据编码器划分为5个特征级，每一级利用1 × 1卷积在多尺度上对编码器进行过滤，输出4、8、12、16、20个特征(按特征级降序排列)。提取的多尺度特征通过AdaCoF运算进行扭曲，在特征空间中捕捉运动。

图像合成网络：GridNet合成图像。向网络输入前向后向扭曲的多尺度特征图，生成专注于上下文细节的RGB图。

路径选择机制：为了利用AdaCoF和我们自己的组件，用了路径选择机制。
一条路径通向原始AdaCoF输出。并行的一条路是合成网络的输出，结合扭曲的多尺度特征图计算出来的，V2来综合两个输出

实验结果

首先是消融实验

然后是定量和定性评价： ![在这里插入图片描述](https://www.icode9.com/i/ll/?i=2021070311460585.png?,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxODE4NDU4,size_16,color_FFFFFF,t_70)

在这里插入图片描述
如下图所示本文的效果还是很好的，而且模型又小：

标签：视频,Network,插值,Frame,CDFI,AdaCoF,方法,模型
来源： https://blog.csdn.net/qq_41818458/article/details/116904525

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9

2021-CVPR-CDFI: Compression-Driven Network Design for Frame Interpolation