颜色恒常性CVPR2020 Multi-Domain Learning for Accurate and Few-Shot Color Constancy阅读笔记

2021-02-09 15:31:14 阅读：149 来源： 互联网

标签：Constancy Multi 颜色 Color 恒常学习数据我们设备

全文翻译

摘要

色彩恒常性是摄像机流水线中消除场景光照引起的图像偏色的一个重要过程。近年来，利用深度神经网络（DNNs）在色彩恒常性精度方面取得了显著的提高。然而，现有的基于DNN的颜色恒定性方法学习不同摄像机的不同映射，这需要对每个摄像机设备进行昂贵的数据采集过程。本文开创性地将多领域学习引入到色彩恒常性领域。对于不同的摄像机设备，我们训练了一个共享同一特征提取和光源估计器的网络分支，并且只使用摄像机特有的信道重加权模块来适应摄像机特有的特性。这种多域学习策略使我们能够从跨设备的训练数据中获益。提出的多域学习颜色恒常性方法在三个常用的基准数据集上取得了最新的性能。此外，我们也在少数镜头的颜色恒常性设定下验证了所提出的方法。给定一个新的不可见设备和有限数量的训练样本，我们的方法能够提供准确的颜色恒常性，只需学习相机特定参数从少数镜头数据集。

介绍

人类视觉系统自然具有对场景中不同光源进行补偿的能力，称为色彩恒常性。相机拍摄的图像的颜色很容易受到不同光源的影响，在阳光下可能呈现“蓝色”，在室内白炽灯下则呈现“黄色”。为了从捕获的图像中估计场景的亮度，颜色恒定性是摄像机流水线中校正捕获图像颜色的一个重要单元。

经典的颜色恒常性方法利用图像统计或物理特性来估计场景的光源。这些方法的性能高度依赖于假设，如果假设不成立，这些方法就会动摇[31]。在过去的十年中，另一类方法，即基于学习的方法，变得越来越流行。基于早期学习的方法[20,15]采用手工制作的特征，只从训练数据中学习估计函数。受深部神经网络（DNN）在其他低水平视觉任务中的成功[25，24，16，38]的启发，最近提出了基于DNN的方法[9，37，26]联合学习图像表示和估计函数，并达到了最先进的估计精度。

基于DNN的方法直接学习输入图像与地面真光源标签之间的映射函数。在给定足够的训练数据的情况下，他们能够利用高度复杂的非线性函数来捕捉输入图像与相应光源之间的关系。然而，为了训练颜色恒常性网络而获取的数据往往是昂贵的：首先，图像中的每一幅图像都包含有物理定标对象，在各种各样的场景下，必须采集不同的光源；然后，需要通过相应的定标对象来估计每幅图像中的地面真实光源。此外，由于来自不同摄像机的原始数据呈现不同的分布，现有的基于DNN的颜色恒定性方法假设每个摄像机都有一个独立的网络，因此需要为每个摄像机提供大量的标记图像。由于上述原因，现有的基于DNN的颜色恒常性方法的容量在很大程度上受到训练数据集规模的限制。在训练数据不足的情况下，为了提高颜色恒常性模型的性能，人们做了大量的尝试。

本文提出了一种多域学习颜色恒常性（MDLCC）方法，用于从不同的数据集和设备中获取颜色恒常性数据。受传统成像管道的启发，MDLCC使用相机特定的估计函数从常见的低级特征中估计图像亮度，MDLCC采用相同的特征提取器从输入的原始数据中提取低级特征，并使用特定于摄像机的通道重加权模块将特定于设备的特征转换为公共特征空间，以适应不同的摄像机。通用特征提取器从不同的设备中提取数据，我们用来自不同域的数据训练特定于设备的信道重加权模块以进行域适配。这样的策略使我们能够解决不同摄像机之间的CSS差异，同时利用不同的数据集来训练更强大的深层特征提取器。提出的MDLCC框架通过一个更大的数据集学习每个网络中的大部分网络参数，这显著提高了每个摄像机的颜色一致性精度。

除了提高已有大量标记数据的成熟设备的颜色一致性性能外，我们的多域网络架构还使我们能够轻松地使我们的网络适应新的cam时代。由于一个新的摄像设备的标记样本数不足，MDLCC只需要学习设备的特定参数，而且大部分网络参数都是从大规模数据集上训练的元模型中继承的。最近的一篇论文[31]研究了这样几个镜头的颜色恒常性问题。Mc-Donagh等人[31]利用元学习技术[19]学习了一个更容易适应新相机的颜色恒常网络。然而，由于[31]仍然需要对少镜头数据集上的所有网络参数进行微调，因此它仅在少镜头设置下实现了有限的光源估计性能。相比之下，本文提出的MDLCC算法只需从少量的数据集中学习少量的参数，就能获得较高的少镜头估计精度。

我们的主要贡献总结如下：

本文开创性地利用多域学习的思想来提高颜色恒常性。
我们提出了一个特定于设备的信道重加权模块，以适应不同领域的特征到一个共同的估计器。这使得我们可以对不同的相机使用相同的特征提取和光源估计模块。
所提出的MDLCC在基准数据集[36]、[14]和[3]上实现了最先进的颜色恒定性性能，无论是在标准设置还是少量设置上。

多域学习颜色恒常性

在这一节中，我们将介绍我们提出的多域学习颜色恒常性（MDLCC）方法。我们从颜色恒常性问题的公式和我们的MDLCC模型的目标开始。然后，介绍了MDLCC的网络结构，以及如何利用MDLCC解决少镜头颜色恒定性问题。

问题表述

我们主要研究单光源的颜色恒常性问题，假设场景光源是全局的、单一的。在朗伯假设下，图像形成可以简化为：

Y c = Σ n = 1 N C c ( λ n ) I ( λ n ) R ( λ n ) , c ∈ { r , g , b } \mathbf{Y}_{c}=\Sigma_{n=1}^{N} \mathbf{C}_{c}\left(\lambda_{n}\right) \mathbf{I}\left(\lambda_{n}\right) \mathbf{R}\left(\lambda_{n}\right), c \in\{r, g, b\} Yc=Σn=1NCc(λn)I(λn)R(λn),c∈{r,g,b}

其中Y是观察到的原始图像。λn表示n=1,2，…n表示波长λ的离散样本。C C（λn）表示彩色通道C的相机光谱灵敏度（CSS）。I（λn）表示光源的光谱功率分布，R（λn）表示场景的表面反射率。颜色恒常性旨在估计给定观察图像Y的光源L=[lr，lg，lb]。然后根据von Kries模型[41]，通过

W c = Y c / L c , c ∈ { r , g , b } {W}_{c}=\mathbf{Y}_{c} / L_{c}, c \in\{r, g, b\} Wc=Yc/Lc,c∈{r,g,b}
由于不同的摄像机使用不同的CSS，不同摄像机的原始图像Y占据不同的颜色子空间。现有的基于学习的方法通常为每个设备训练独立的模型。在这项工作中，我们结合不同设备的原始图像，共同学习颜色一致性模型。将来自设备k的训练数据表示为
D k = { Y k , i , L k , i } i = 1 N k D_{k}=\left\{\mathbf{Y}_{k, i}, \mathbf{L}_{k, i}\right\}_{i=1}^{N_{k}} Dk={Yk,i,Lk,i}i=1Nk
，其中上标k，i分别表示设备索引和样本索引，nk是dk的样本数。提出的多域学习颜色恒常性旨在学习从不同域获取原始图像作为输入的网络分支，以估计场景的光源：

{ θ 0 ∗ , θ k ∗ } = arg ⁡ min ⁡ θ 0 , θ k ∑ k = 1 K ∑ i = 1 N k L ( L k , i , f ( Y k , i ; θ 0 , θ k ) ) \left\{\theta_{0}^{*}, \theta_{k}^{*}\right\}=\arg \min _{\theta_{0}, \theta_{k}} \sum_{k=1}^{K} \sum_{i=1}^{N_{k}} \mathcal{L}\left(\mathbf{L}_{k, i}, f\left(\mathbf{Y}_{k, i} ; \theta_{0}, \theta_{k}\right)\right) {θ0∗,θk∗}=argθ0,θkmink=1∑Ki=1∑NkL(Lk,i,f(Yk,i;θ0,θk))
其中，所有设备采用相同的网络结构f（·），θ0和θk分别是网络中的共享参数和设备特定参数。L是损失函数，用于测量地面真实值和估计光源之间的差异。

MDLCC的网络结构

如前一节所述，我们建议使用相同的网络架构，并且仅使用部分特定于设备的参数来适应不同的设备。为了验证我们使用多域学习来提高不同设备的颜色一致性性能的想法，我们没有研究新的网络结构，而是使用FC 4（挤压网模型）作为我们的主干。具体来说，我们假设FC 4可以分为两个阶段：1）前10层网络（逐步减少特征图的空间分辨率）构成一个低层特征抽取器；2）最后2层网络构成一个估计器，该估计器汇总提取的特征以估计光源。受先前提出学习变换矩阵来关联不同摄像机的摄像机间方法[21]的启发，我们提出了一种设备特定信道重新加权模块，并在高维特征空间中对从不同设备提取的特征应用不同的变换。

我们的网络架构的图示如图2所示。对于不同的设备，我们使用相同的特征提取模块从输入图像中提取特征；然后使用特定于设备的信道重加权模块对特征进行变换；最后，使用相同的估计器生成最终的光源估计。下述详细介绍了特征提取、信道重加权和光源估计模块。

特征提取 我们使用Fc4中的前10层作为特征提取器。对于第一层，使用步长2卷积和64个大小为3×3的滤波器生成64个特征图。然后，3个块，每个块由一个最大池层和两个fire blocks组成[27]，以增加感受野，并进一步将特征图的空间分辨率降低因子8。每个块后特征映射的通道维数分别为128、256和384。ReLU[32]用作每个conv层之后的激活函数。

通道加权模型 为了使来自不同领域的低层特征适应一个公共空间，我们提出了一个设备特定的信道重加权模块来转换特征。具体地说，我们从提取的特征和特定于设备的参数的统计中得出缩放因子。将图像特征抽取器的输出yk，i表示为fk，i，我们使用一个全局平均池层来计算fk，i的每个通道的平均值。然后，可通过以下公式获得信道尺度向量ωk，i：

ω k , i = g sigmoid ( W k , b ∗ g ReLU ⁡ ( W k , a ∗ z k , i ) ) \boldsymbol{\omega}_{k, i}=g_{\text {sigmoid }}\left(\mathbf{W}_{k, b} * g_{\operatorname{ReLU}}\left(\mathbf{W}_{k, a} * \mathbf{z}_{k, i}\right)\right) ωk,i=gsigmoid (Wk,b∗gReLU(Wk,a∗zk,i))

其中zk，i是fk的平均值，i，{wk，a，wk，b}是设备特定的参数，*是卷积算子，g ReLU和g sigmoid分别是ReLU和sigmoid函数。等式（4）利用两个设备特定的完全连接层，从输入特征映射的统计信息生成信道缩放因子。具有ωk，i，变换特征gk，i可通过以下方式获得：

G k , i = ω k , i ⊗ F k , i \mathbf{G}_{k, i}=\boldsymbol{\omega}_{k, i} \otimes \mathbf{F}_{k, i} Gk,i=ωk,i⊗Fk,i
其中⊗表示按通道乘法。

光照估计 利用变换后的特征gk，i，我们利用两个卷积层来估计局部照度，最终的全局照度值ˆL k，i由随后的全局平均池层来实现。

在训练阶段，所有训练样本都用于特征提取和光源估计模块的训练，而只有来自设备k的样本影响信道重加权模块中的设备特定参数{wk，a，wk，b}。

用于少数镜头颜色恒定性的MDLCC

MDLCC学习共享的和特定于设备的参数，以利用来自不同设备的标记数据。大多数参数由不同的设备共享，只有一小部分（6.7%）的参数是特定于设备的。MDLCC的这一特性使其成为一种理想的少镜头颜色恒定性体系结构。具体地说，给定来自一个新的不可见设备的有限数量的训练样本，我们只需要从这些样本中学习特定于设备的参数，并且这些参数可以在现有的MDLCC模型中被记录。第4.2节将介绍我们的少数镜头颜色恒定性设置的更多细节。

实验

数据集

我们使用三个广泛使用的颜色恒常性数据集来评估我们提出的方法：重新处理的[36]Gehler-Shi数据集[22]、NUS 8-camera数据集[14]和Cube+数据集[3]。Gehler-Shi数据集使用两台相机，即Canon 1D和Canon 5D采集，包含室内和室外场景，共568个场景。NUS数据集包含1736张图像，这些图像是使用8个摄像头在大约260个场景中采集的。而Cube+数据集是最近发布的大规模颜色恒定性数据集。包括1365个室外场景和342个室内场景。所有的图像都是由佳能550D相机拍摄的。对于每个数据集，我们遵循前面的工作[6、7、26]，使用线性RGB图像进行实验。对原始图像进行简单的下采样去镶嵌，然后进行黑电平减法和饱和像素去除，得到线性RGB图像。

我们遵循前面的工作[7，26，14]，对每个数据集使用3倍交叉验证。具体来说，对于Gehler-Shi数据集，我们使用了作者主页中提供的交叉验证拆分。NUS数据集中每个摄影机的子集包含来自同一场景的图像。为了保证NUS数据集中多个子集合并时训练集和测试集不会出现同一场景，我们根据场景内容对NUS数据集的训练集和测试集进行了拆分。至于cube+，我们将测试集随机分成3个部分进行交叉验证。我们使用角度误差作为定量测量，这在以前的方法[6，7，26，14]中已经使用过。在我们所有的实验中，我们报告了5个角度误差指标，即所有误差的平均值、中位数、三平均值、最低25%误差的平均值和最高25%误差的平均值。

实现细节

我们用角损耗来训练我们的网络：

L ( L , L ^ ) = cos ⁡ − 1 ( L ^ ⊙ L ∥ L ^ ∥ × ∥ L ∥ ) \mathcal{L}(\mathbf{L}, \hat{\mathbf{L}})=\cos ^{-1}\left(\frac{\hat{\mathbf{L}} \odot \mathbf{L}}{\|\hat{\mathbf{L}}\| \times\|\mathbf{L}\|}\right) L(L,L^)=cos−1(∥L^∥×∥L∥L^⊙L)

式中⊙表示内积，cos−1（·）是余弦函数的逆。

我们的框架是基于TensorFlow[1]和CUDA支持实现的。对于多域设置和少镜头设置，我们使用384×384×3的输入来训练我们的网络。图像随机裁剪和重照明[26]被用作数据增强。我们采用Adam解算器[30]作为优化工具，并设置1×10−4。权重衰减值设置为0.0001，动量设置为0.9。对于所有训练样本的实验，我们训练我们的模型进行750000次迭代，批量大小为8。而对于小样本实验，我们训练了15000次迭代的模型，批量大小为8。

对于多域设置，我们从头开始训练所有参数，并用正态分布初始化它们。对于少数镜头设置，可共享的权重直接继承自元模型（元模型的更多细节将在第4.5节中介绍），我们只训练相机特定的参数。摄像机特定参数用正态分布初始化。

消融实验和分析

在本节中，我们进行消融研究，以评估多域学习的有效性，以及我们提出的相机特定通道重加权模块。

为了验证多域颜色一致性的有效性，我们实现了两种变体：1）单设备颜色一致性和2）多设备组合模型。准确地说，单设备颜色恒常性模型利用我们的网络结构，为每个设备独立训练网络；多设备组合方法收集所有设备的训练数据，训练一个独特的网络来处理不同设备的图像。为了公平比较，所有超参数都与我们的MDLCC方法保持相同。此外，为了分析设备数量对我们的多域学习模型的影响，我们提出了4组实验，利用不同数量的摄像机图像进行训练。表1列出了组合摄像机的详细信息。在最后一组中，我们将来自Gehler Shi、NUS和Cube+数据集的所有相机组合在一起，共包含11个不同的相机。定量性能如表1所示。

多领域学习 与在每个数据集上学习不同网络的单设备方法相比，该方法在所有子数据集上都取得了更好的性能。即使对于包含1707个训练样本的大规模Cube+数据集，来自相关领域的数据也是有益的。这清楚地证明了多领域学习在颜色恒常性领域的有效性。

摄像机特定通道重加权模块 通过比较单设备结果和多设备组合结果，我们发现直接组合多个数据集而不使用特定于相机的模块并不能持续提高颜色恒定性性能。这可能会提高一台相机的性能，但会严重降低其他相机的性能。例如，当Gehler-Shi与NUS-C600D相结合时，Gehler-Shi数据集的平均误差从1.66下降到1.91。这表明，没有设备特定模块直接组合多个数据集不能充分利用跨设备训练数据。同时，通过采用特定于摄像机的信道重加权模块，我们的MDLCC方法明显优于多设备组合基线。

设备数量 从表1中我们还观察到，通过增加MDLCC中的器件数量，可以进一步提高性能。这是因为更多的训练样本包含了更多的场景和光源，有利于学习更多的表现形式。例如，与Gehler-Shi相结合时，NUS-600D上的MDLCC的平均误差为1.82，与其他所有cam相结合时，平均误差可进一步降低到1.65。这也证明了我们提出的摄像机特定通道重加权模块的有效性。我们的模型在处理11个设备时仍然有效。

与最新技术的比较

在这一节中，我们将我们提出的多域颜色恒常性方法与其他颜色恒常性算法进行比较。我们将我们的方法与Gehler-Shi[36]、NUS[14]和Cube+[3]数据集上的竞争方法进行了比较。对于NUS数据集，我们遵循前面的工作[7，26]，并在8个摄像头上取每个度量的几何平均值。我们通过合并三个数据集中的所有设备来训练我们的模型。Gehler-Shi数据集和NUS数据集的比较方法的结果收集自[7,26]。而对于Cube+数据集，我们使用来自作者网页的开放源代码呈现结果。我们在Cube+数据集上重新训练了FFCC[7]和FC 4[26]模型，并且仔细调整了超参数以获得最佳性能。

实验结果如表2所示。除了最先进的FFCC方法外，MDLCC在所有度量中的性能都优于所有竞争方法。具体而言，我们的模型不断优于我们的主干体系结构，即FC 4方法，这清楚地验证了多域学习对颜色恒常性的有效性。与FFCC方法相比，我们的模型通常优于仅利用图像内容实现颜色恒定性的基本FFCC模型，并与另外以相机元数据（曝光设置和相机信息）和语义信息作为输入的完整FFCC模型相当。具体来说，我们的模型在平均误差和最差的25%的平均误差方面表现出更好的性能，而在其他三种方法中表现较差。一个可能的原因是我们的损失函数有减少所有训练样本的平均误差的趋势，这更适合平均误差和最坏的25%指标。

少样本评估

在这一部分中，我们进行实验来验证所提出的模型对于少镜头颜色一致性问题的能力。我们使用Gehler-Shi、Cube数据集和NUS的一个子集（NUS-C1）作为少数镜头测试数据集。注意，Cube dataset是Cube+的一个子集，它只包含室外场景。我们选择立方体而不是立方体+的目的是直接比较我们的方法与最近提出的少镜头元学习颜色恒常性方法（FMLCC）[31]。为了训练我们的模型，我们使用剩余的7个数据集，即来自NUS数据集的7个子集作为训练集，并且只在少数镜头数据集上微调那些特定于设备的参数。具体来说，我们将少量样本K的数量分别改为1、5、10和20，以彻底验证我们的方法。我们将每个测试数据集分成三部分。对于每个折叠，我们从保留的折叠中随机选取K个样本来构建训练样本，用于学习相机的特定参数。为了避免K个训练样本的随机性和干扰性，我们进行了10次少镜头实验，每一次都随机选取K个图像。然后，我们给出10次运行中每个指标的平均值。表3列出了几次射击表演。我们选择FMLCC[31]进行比较，FMLCC的结果是从原始论文[31]复制的。本文还对利用整个数据集进行训练的单设备颜色恒常性的性能进行了分析，以供参考。

与以往的几种镜头颜色恒常性方法FMLCC[31]相比，我们的模型在大多数指标上都取得了更好的结果。此外，由于FMLCC需要对所有网络权重进行微调，因此对于极少数的镜头情况（例如K=1），它们可能无法提供良好的结果。然而，由于我们的模型只需要重新训练特定于相机的权重，我们仍然可以获得良好的色彩一致性性能。从表3和表2可以看出，我们的模型在单次激发（K=1）的情况下优于大多数基于统计的方法。此外，当使用K=20个训练样本时，我们的模型与使用整个数据集进行训练的单设备模型的性能相当。图4提供了我们的少数镜头颜色恒定性结果的一些视觉示例。

结论

深度网络可以大大提高大规模标注数据集的颜色一致性精度。然而，这类数据集的获取既费时又费钱，特别是对于颜色恒常性问题，由于设备的不同，需要为每台相机提供独立的数据集。在这篇论文中，我们开始了一项开创性的工作，利用多领域学习方法解决颜色恒常性问题。具体来说，我们利用不同设备的训练数据来训练单个模型，学习互补表示，提高泛化能力。实验结果表明，在提出的共享模块和摄像机专用模块的基础上，我们的模型取得了比训练独立模型更好的结果，并且在三个基准数据集上也达到了最先进的性能。我们还测试了在少数镜头设置下的颜色恒常性性能。实验结果表明，该模型能有效地适应只需少量（如20个）训练样本的新设备。

原文引用：

Xiao J , Gu S , Zhang L . Multi-Domain Learning for Accurate and Few-Shot Color Constancy[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020.

笔记

1、通道注意力的全连接层是没有bias的；

2、通过最后一个全局均值池化来从local illuminate获得全局光源，是否有提升空间；

3、注意力改为transformer？

4、此类涉及多设备的颜色恒常性方法，包括对设备间（一对）转换、元学习、注意力机制、基于贝叶斯的方法（华为），都是在寻找将设备相关信息提取并分离，在剩余的“公共空间”特征上进行特征提、融合，并得到结果，再加入设备相关信息。与倍帧相关的方法如出一辙，倍帧相关方法也是在找寻运动向量的表示方法。

标签：Constancy,Multi,颜色,Color,恒常,学习,数据,我们,设备
来源： https://blog.csdn.net/u011330902/article/details/113770988

本站声明： 1. iCode9 技术分享网（下文简称本站）提供的所有内容，仅供技术学习、探讨和分享；
2. 关于本站的所有留言、评论、转载及引用，纯属内容发起人的个人观点，与本站观点和立场无关；
3. 关于本站的所有言论和文字，纯属内容发起人的个人观点，与本站观点和立场无关；
4. 本站文章均是网友提供，不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属；如您发现该文章侵犯了您的权益，可联系我们第一时间进行删除；
5. 本站为非盈利性的个人网站，所有内容不会用来进行牟利，也不会利用任何形式的广告来间接获益，纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

ICode9