2025-01-22 17:45 江苏

关注公众号，发现CV技术之美

本篇分享论文Colorization-Inspired Customized Low-Light Image Enhancement by a Decoupled Network，基于解耦网络的彩色自定义弱光图像增强。

作者：Zhi Jin, Chenxi Wang, and Xing Luo

单位：中山大学智能工程学院

原文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10815605

Code：https://github.com/FVL2020/CCNet

Abstract

本文介绍了CCNet暗光增强网络。该网络创新地将暗光增强分解为两个子任务：增亮和着色，并能够有效且高效地完成暗光增强任务。

CCNet有以下几个贡献：

将暗光增强任务分解为两个子任务：增亮和着色。这种方法通过单独考虑色差，有效地解决了色差问题。

针对这种解耦增强，提出了一种多任务学习架构，其中每个任务特定的解码器都是根据其独特的属性精心设计的。

CCNet通过利用着色子任务的特征来实现定制增强，这在以前的工作中没有被探索过。实验结果证明了该方法的有效性和灵活性。此外，由于CCNet的解耦特性，该过程不需要额外的训练，并且对亮度的变化保持不变。

在各种数据集上进行的大量实验验证了该方法在暗光增强中的最优性能。

Method

Network Architecture

上图给出了本方法的网络结构。暗光增强被解耦成两个子任务：增亮和着色。该网络结构遵循多任务学习体系结构的设计，包含一个编码器和两个特定于任务的解码器。

Multitask Encoder

亮度的结构性内容在指导增亮和着色过程中起着关键作用。它规定了网络应该如何增强亮度以及在哪里着色。值得注意的是，由于输入不同，这两个子任务不符合传统的多任务学习范式。

尽管如此，在增亮子任务的训练过程中，编码器有能力获取有关重要结构的内容，这对于着色子任务同样不可或缺。通过共享编码器架构，可以从增亮子任务中利用着色所需的基本信息。因此，所提出的方法仍然可以被描述为一种多任务学习形式。此外，这种创新设计不仅促进了两个子任务之间有价值的信息交换，还提高了网络的整体效率。

如图1，低光亮度图像用作多任务编码器的输入，该编码器包括四个编码块（E-Block）。每个E-Block由一个空间频率层（spatial–frequency layer, SFL）和一个下采样层组成。然后，从提取的特征可以表示如下：

上图给出了SFL的架构。它提取频率和空间域的特征。

SFL

傅里叶频率信息在暗光增强中显示出巨大的潜力，其中傅里叶空间中的幅度分量可以表示空间空间中的亮度信息。它也可以用傅里叶变换理论来解释。对于二维图像信号，振幅可以表示亮度的强度。此外，基于傅里叶的特征固有地具有高效的全局表示。因此，SFL旨在从亮度中提取更有效的信息。

如图2所示，SFL由两个分支组成：空间分支和频率分支。空间分支包含两个3×3卷积层，用于提取空间特征。在频率分支中，输入特征首先被变换到傅里叶空间，在那里获得幅度和相位分量。然后将这两个分量分别送入两个1×1卷积层。对于振幅分量，我们设计了一个基于注意力的模块来自适应地过滤频率，因为振幅分量与亮度的相关性更强，分布更复杂。然后，将从振幅和相位分量中提取的特征连接起来，得到频率特征。输出特征是通过合并和获得的。

Brightening Subtask

增亮子任务由一个专用的亮度解码器实现，该解码器由四个解码块组成（D-Blocks）和5个亮度调节模块（lightness adjustment module，LAM）模块。每个块包括一个跳跃连接层、一个上采样层和一个卷积层。

采用LAMs增强网络提高对比度和保持细节的能力。LAMs首先利用来自输入图像的反向亮度图B，作为一种将注意力引导到需要增强对比度区域的手段。在此基础上，对算法进行边缘映射E的计算，以确保边缘细节得到保护。通过这些过程，网络被指导实现较暗区域比较亮区域更明显的亮度，从而解决了暗光增强中边缘信息的重要性。

如图1所示，LAM可以公式化如下：

其中和分别是输入和输出特征。被归一化为（0，1）。表示边缘提取器。表示调整大小操作。然后，可以通过以下公式获得预测的亮度

Charbonnier损失对于涉及像素级重建的任务特别有效，被用作重建损失，其定义如下：

其中根据经验设置为。除了上述策略外，还利用结构相似性指数度量（SSIM）损失和总变分损失来进一步提高图像中结构细节的保留率。

Colorization Subtask

着色子任务结合了色度解码器的使用，色度解码器由四个D-Block和一个CEM块组成。

当前的图像着色技术经常采用用户引导的方法，并引入额外的语义信息为解决物体分配颜色的固有模糊性，这些信息提供了必要的颜色提示和边界。在暗光增强的背景下，所讨论的低光图像已经具有一些色度信息。尽管这种色度信息可能是不饱和的，但它仍然可以为生成准确的色度提供有价值的线索。如图1所示，输入色度可以反映与地面真值色度相对应的近似色调和形状。

为了利用这些有价值的信息，我们将的特征整合到色度解码器中。我们将从亮度和色度中提取的特征视为多尺度特征（多个信息源）。为了有效地合并这些功能，我们引入了颜色嵌入模块(color embedding module,CEM)。如图1所示，给定输入色度，首先提取特征。然后，基于在增亮子任务中获得的和，CEM通过执行元素相加来预测组合特征，表示如下：

随后，计算关联矩阵和，用于将色度特征纳入彩色化过程。这是通过应用两个卷积层，然后进行sigmoid激活来实现的，表示如下：

最后，CEM的输出特征计算如下：

“AB”通道中的颜色量化图示。左图中的颜色是连续的，并被转换为离散的颜色，如右图所示。

将着色作为一个回归任务处理通常会导致颜色消失的问题，因为它倾向于计算解空间中所有结果的平均值。例如，白天的天空是蓝色的，晚上的天空变成红色，它们的平均颜色是灰色的。

为缓解这一问题，采用一种策略，使用网格大小为10的网格将CIELAB颜色空间中的所有颜色量化为313个类别（如图3所示）。随后，按照中提出的方法计算分类损失，这被证明是一种有效的解决颜色消失的解决方案。

值得注意的是，分类输出通常受到内存限制，并被设置为图像原始尺寸的四分之一，用h和w表示。这种降尺度可能会潜在地影响像素级的图像质量并引入性能下降。因此，我们同时对颜色分类输出和色度图施加约束。这样既能生成丰富的颜色，又能保证像素级上色的精确性。

预测色度图和颜色分类输出的结果表达式如下：

在色度损失计算领域，L2损失对于彩色化过程来说不够稳健。这种不足源于着色任务固有的多模态特性。因此，我们采用L1损耗作为色度重建损耗，用表示。该损失定义如下：

随后，我们引入了由表示的颜色分类损失，以使颜色范围多样化。的公式如下：

其中表示分类损失，其中本工作采用2-D交叉熵；是通过软编码调整的大小而获得的。

CCNet的总损失定义如下：

其中是权重因子，根据经验分别设置为1、1、0.01、1和0.01。

提出的定制网络总框架。它包括颜色样式定制和饱和度定制。

Color Style of Guidance

在用户引导图像着色领域中，由于很难在100或1000张图像数据集上收集用户引导图像着色的真实成对数据，因此在训练阶段需要仔细生成颜色指导，如颜色笔画和样本图像。彩色化子任务是基于用户引导的图像彩色化设计。

在网络上如果合适，增强结果的颜色风格可以通过不同的用户指南进行更改，如用户指南着色。然而，这项工作的输入颜色指导与现有方法不同。它提供颜色提示和颜色边界。可以修改颜色提示以获得不同颜色风格的结果，同时应保留颜色边界，因为它有助于色度的准确位置。

因此，我们设计了一种颜色转移方法，该方法基于示例图像修改输入颜色引导的颜色风格（如图4所示），以实现定制。

我们修改了输入颜色指导如下：

其中和分别是输入图像和参考图像。RGB2Lab(·)是将图像从RGB变换到CIELAB颜色空间的颜色空间变换函数。和的组合相当于输入的颜色引导。然后，使用平均值和标准偏差来传递颜色

其中mean(·)和std(·)表示平均值和标准偏差的提取。最后，如图5（d）所示，传输的颜色引导为.

颜色风格自定义中不同设置的比较。(a) - (d)分别为输入图像、单独基于(a)的增强结果、参考图像、获得的颜色引导、单独基于(d)的增强结果、基于所提出融合策略的增强结果。

然后，可以作为着色子任务的输入，以获得定制的结果。然而，这种颜色转移方法的最终质量取决于输入图像和参考图像之间的结构相似性。当直接将作为输入时，如图5（e）可能会导致变色。在这项工作中，我们建议将原始制导信息合并到的特征中，以缓解这一问题，如图4所示。具体来说，我们首先从原始颜色引导和颜色迁移引导图中提取特征，并在

其中是两个E-Block。然后，通过以下步骤获得融合特征

其中γ是平衡两个特征的超参数，在这项工作中设置为0.7。通过这种方式，可以消除伪影，如图5（f）所示。

Saturation of Guidance

颜色利用指南不仅规定了要采用的色调，还规定了它们的应用位置。此外，这些颜色的强度会对最终输出的饱和度产生重大影响。为了保留边界信息，设计了一种简单的放大操作。基于CIELAB颜色空间的特性，将颜色引导以倍数ω放大为×（1+ω）。同时，还可以调整的饱和度，以获得如图4所示的不同颜色风格和饱和度的结果。

饱和度定制输入和输出图像之间的比较。(a)输入图像。(b)不同因素下的饱和度定制结果。(c)原始暗光增强 w/o饱和运行结果。(d)直接操纵输出图像饱和度的结果(c)使用不同的因素。

Comparison With Directly Control the Output

我们不是直接操纵增强的图像，而是在输入颜色引导中操作。受益于解耦的本质网络，这些定制的操作：1)不依赖于精确的修改，因为它只是应用在导航中；2)不影响亮度信息。

首先，基于CIELAB颜色空间的性质，通过缩放“AB”通道的值来改变图像的饱和度；然而，对于非专业用户来说，找到合适的饱和度定制参数是一件困难的事情。因此，由于数值截断，结果容易造成细节损失，如图6(d)所示。

相比之下，输入颜色引导操作的结果表现出更好的视觉质量，如图6(b)所示。我们在实验中使用了两个饱和度缩放因子，并在图6中展示了所提出的饱和度定制的优势。

对于颜色风格迁移，当目标图像和参考图像的语义不相关时，容易导致迁移效果不理想如图7(e)。但是，将颜色迁移后的图像作为颜色指导进行着色时，可以得到较好的效果，如图7(f)所示。

总而言之，本文自定义操作的重点是操纵着色子网络的输入颜色指导。这两种定制可以作为后处理器直接应用于结果；然而，它可能需要更复杂的调整，例如精心选择的饱和度调整参数或用于颜色风格转移的复杂分割解决方案。

颜色风格自定义的输入和输出图像的比较。(a)输入图像。(b)原暗光增强无颜色风格变换的结果。(c)事实。(d)参考图像。(e)和(f)分别是对输出和输入图像直接应用颜色样式变换的结果。

极端暗光增强的不同解决方案的可视化结果。(a)输入图像。(b)没有任何改进操作的默认结果。(c) W/饱和度增强结果。(d) W/ Saturation定制结果。(e)最近一次飞航的结果。(f)拟议解决办法的结果。

Solutions for Extremely Low-Light Conditions

着色子任务取决于输入图像色度中某些色调和形状的存在。然而，如果输入图像过暗，则缺乏足够的信息进行有效的颜色恢复如图8（a）。因此，增强图像的色度显得明显暗淡如图8（b）。在这项工作中，我们介绍了几种针对这种极低光照条件的解决方案。

首先，由于这种失败是由极不饱和的输入颜色引导引起的，我们可以在训练过程中降低输入颜色引导的饱和度作为数据增强。它帮助网络学习如何恢复基于非常暗淡的颜色引导的色度。这个过程可以表示如下：

其中random(·)表示随机采样一个数字。如图8（c）所示，结果略好。其次，我们还可以修改输入颜色引导的饱和度，以达到前面提到的更饱和的颜色。

如图8（d）所示，与基线结果相比，它仍然只有一点改善。关键问题是输入图像的色度几乎消失了。基于原始已消色图像的修改几乎没有得到明显的改善。同时，它也对其他暗光增强方法提出了挑战，如F暗光增强如见图8（e）。

因此，我们通过从参考图像中引入颜色信息来解决这个问题，即颜色风格定制。此外，为了获得更生动的颜色，我们应用了颜色样式和饱和度自定义。给定一幅参考图像，我们首先将其颜色转换为输入色度并获得。然后，我们通过×（1+ω）和×（1+Ω）放大和的饱和度。如图8（f）所示，我们在极低的光照条件下获得了丰富多彩的结果。

Experiments

Main Results

LSRW-Huawei的定量比较[53]。排名第一的结果以粗体显示，而排名第二的结果则以下划线显示。请注意，RTX 3090 TI GPU报告了大小为256×256的图像的推理时间

LSRW-Nikon的定量比较[53]。排名第一的结果以粗体显示，而排名第二的结果则以下划线显示

LSRW数据集中的视觉比较[53]。所提出的方法达到了最佳效果，特别是在色度分量方面。

Comparison With Recent LLIE Methods

表I和表II给出了LSRW-Huawei和LSRW-Nikon的定量比较。CCNet在性能指标方面全面领先，这是由解耦训练策略和引入的定制设计特性赋予的明显优势。

实验结果表明，该方法增强后的图像在结构和颜色上更接近真实图像。还对模型大小和推理时间进行了比较分析，以强调模型的效率。如表I所示，所提出的方法具有相对紧凑的模型大小和良好的推理速度。

请注意，所有其他方法都是在相同的数据集上使用各自的公共代码进行训练的。我们还将视觉结果与图9中最近的基线进行了比较。可见，现有方法虽然能较好地恢复亮度细节，但在色度信息方面存在挑战。

例如，FECNe、Bread、SMG丢失了大部分色度信息，如图9第二行所示，而所提方法由于对色度的特殊考虑，使得颜色更加丰富。

对比了颜色风格定制和自定义方法[7]的视觉效果。可以看出，所提出的方法具有更好的定制性和更鲜明的结果。请注意，Sun等人[7]的亮度结果受到参考图像（第三行）的影响。因此，我们稍微提高了Sun等人[7]结果的亮度，以获得更好的色度比较（第四行）。

饱和度自定义的视觉效果。所提出的方法获得了不同饱和度的增强结果。

Comparison With Customized Enhancement Methods

为了验证定制的有效性，将CCNet与其他定制的暗光增强方法进行了比较。如图10所示，所提方法在定制过程中达到了更加清晰的效果（如天空和草地）。

此外，由于所提方法的定制操作独立于训练过程，因此在没有参考图像的情况下，所提方法的增强结果仍然比其他定制的暗光增强方法具有更高的质量。此外，发现部分定制方法的亮度信息在定制过程中发生了变化；然而，由于采用了解耦的策略，所提出的定制选项是亮度不变的。

由于大部分语义信息都存在于亮度中，因此达到了较高的保真度。我们还展示了饱和度的自定义，如图11所示。

“增亮和上色”两步操作的图解。值得一提的是，基于示例的着色器的颜色提示来自于低光图像，而基于笔画的着色器利用来自同一低光图像的色度信息作为其颜色提示。

本文提出的方法与两步法的视觉比较。(a)输入图像。(b) - (e)根据表III的视觉结果。(f)地面真实图像。请注意，由于两种增白剂之间的视觉结果相似，我们仅给出了信噪比感知的结果[63]。

与“增亮和着色”方法的定量比较。排名第一的结果以粗体显示，排名第二的结果以下划线显示。应该注意的是，符号“*”表示该方法已被重新训练

Comparison With Two-Step Methods

本文将暗光增强解耦为两个子任务，即亮化和着色，并设计了一个多任务学习架构来实现这种解耦增强。

为验证该设计，将所提出的方法与其他两步方法进行了对比分析，这些方法包括一个亮化网络（brightener）和一个着色网络（colorizer）。亮度增强器可以看作是单通道（light- ness channel）暗光增强方法，着色器采用用户引导的图像着色方式，将低照度图像作为颜色线索，根据亮度增强器的输出预测色度。

图12概述了两步“调亮-着色”方法的实现细节。我们选择了两种暗光增强方法包括SNR-Aware和MIRNet-v2，用于增亮和图像着色，其中包基于示例的方法和基于one stroke的方法。这些选择产生了四种不同的方法，每种方法都要经历两个步骤的训练过程：

首先，增亮器是独立训练的，然后是着色器，然后根据固定参数的增亮器进行训练。重要的是要强调，由于输入通道和输出通道之间的不一致，重新训练增亮器是必要的。对于着色器来说，重新训练基于one stroke的着色器相对简单。尽管如此，基于样例的着色器在标准暗光增强数据集内遇到了困难。这个困难来自于它依赖于将输入图像与样本图像进行比较，当样本图像中没有对应的颜色时，就从数据库中获取颜色。因此，我们选择将再训练工作集中在基于one stroke的着色器上，并继续利用已经预训练过的基于示例的着色器。

我们在lolal -real数据集上进行了这个实验。量化比较结果如表3所示，我们采用PSNR、SSIM和CSE作为评价指标。显然，所提出的方法在所有指标上都表现出优越的性能。结果的视觉评价参见图13。基于样本的着色策略，旨在将参考图像的颜色投影到输入图像中，容易导致创建不完全饱和的颜色，因为参考图像是在低光照条件下捕获的。

另一方面，基于one stroke的着色技术依赖的颜色指示仅旨在提供粗糙的方向。不管输入的颜色是不饱和的，这种技术都会产生更有活力的颜色结果。此外，经过重新训练过程，基于one stroke的着色器预测出更逼真和准确的颜色表示。

例如，如图13所示，乒乓球台的输入颜色，如图13(a)显示为暗蓝色。因此，基于样例的着色器的输出仍然是暗淡的蓝色如图13(b)，而基于笔画的着色器产生了更明亮的蓝色如图13(c)。重新训练的基于笔画的着色器增强了亮蓝色的真实感。然而，所提出的方法产生了更准确的颜色饱和度如图13(d)。

基于LSRW-Huawei[53]数据集的五种配置消融研究。排名第一的结果以粗体显示，排名第二的结果以下划线显示

LSRW-Huawei[53]数据集上损失函数的消融研究。排名第一的结果以粗体显示，排名第二的结果用下划线显示

LSRW-Huawei[53]数据集上色彩空间的消融研究。排名第一的结果以粗体显示，排名第二的结果用下划线显示

Ablation Study

架构设计：在五个不同的配置中进行消融研究，以证明所提出的架构设计的有效性。

1)“W/o解耦”配置采用编码器-解码器结构，在RGB颜色空间中生成增强的结果。

2)“W/o共享”配置采用V-B3节所述的两步架构，而主网基于所提出的设计。

3)“W/o LAM”配置排除了亮度调节模块。

4)“W/o CEM”结构消除了CEM，转而利用级联和卷积操作。 - 5)“W/o SFL”配置用普通卷积层取代了SFL。如表4所示，完整设置产生了最佳性能，这支持了所提设计的有效性。

损失函数：我们还在损失函数中进行了消融研究，包括SSIM损失Lssim、平滑损失Ltv、颜色分类损失Lq。如表V所示，lssim和Ltv都有利于增强。对于颜色分类损失Lq，尽管它在PSNR上有负的提高，但它有助于达到更生动的颜色，如我们在图14中所示。

颜色空间：有许多颜色空间可以将图像分解为亮度和色度分量。例如，在YUV颜色空间中，“Y”通道表示亮度，“UV”通道表示色度。本文进行了消融研究，以探索颜色空间选择的影响。请注意，在所有颜色空间中很难量化色域，LAB颜色空间的结果是没有颜色分类损失的结果。实验结果如表6所示。我们基于开源库Kornia进行色彩空间变换，该库提供了便捷的张量格式色彩空间变换，也被应用于图像着色领域。如Table VI所示，不同颜色空间的使用对增强效果的影响较小。

中山大学智能工程学院的前沿视觉实验室（FVL主页：https://fvl2020.github.io/fvl.github.com/ ）由学院金枝副教授建设并维护，实验室目前聚焦在图像/视频质量增强、视频编解码、3D 重建和无接触人体生命体征监测等领域的研究。旨在优化从视频图像的采集、传输到增强以及服务后端应用的完整周期。
我们的目标是开发通用的概念和轻量化的方法。为了应对这些挑战，我们将持之以恒地进行相关的研究，并与其他实验室进行合作，希望利用更多关键技术，解决核心问题。长期欢迎有志之士加入我们！

最新 AI 进展报道
请联系：amos@52cv.net

END

欢迎加入「图像增强」交流群?备注：增强

阅读原文

跳转微信打开