- ·上一篇文章:拆东墙补西墙?用户反映Win10更新未修复SSD问题
- ·下一篇文章:国外团队推出智能戒指,伸出手指头就能买单
阿里巴巴Poster论文:处理多种退化类型的卷积超分辨率 | CVPR 2018
原标题:阿里巴巴Poster论文:处理多种退化类型的卷积超分辨率 | CVPR 2018从学术开发和企业活动上看,阿里巴巴达摩院机器智能技术实验室在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中有不错的表现。实验室分别在 SQuAD 和 KITTI 比赛中获得第一名,近期在 AAAI 2018 上,达摩院机器智能技术实验室共有 4 篇论文被录用,在CVPR 2018上,也有多篇论文被录用,成绩斐然。近年来,深度卷积神经网络(CNN)方法在单幅图像超分辨率(SISR)领域取得了非常大的进展。然而现有基于 CNN 的 SISR 方法主要假设低分辨率(LR)图像由高分辨率(HR)图像经过双三次 (bicubic) 降采样得到,因此当真实图像的退化过程不遵循该假设时,其超分辨结果会非常差。此外,现有的方法不能扩展到用单一模型解决多种不同的图像退化类型。为此,提出了一种维度拉伸策略使得单个卷积超分辨率网络能够将 SISR 退化过程的两个关键因素(即模糊核和噪声水平)作为网络输入。归因于此,训练得到超分辨网络模型可以处理多个甚至是退化空间不均匀的退化类型。实验结果表明提出的卷积超分辨率网络可以快速、有效的处理多种图像退化类型,为 SISR 实际应用提供了一种高效、可扩展的解决方案。单幅图像超分辨率(SISR)的目的是根据单幅低分辨(LR)图像输入得到清晰的高分辨率(HR)图像。一般来说,LR 图像 y 是清晰 HR 图像 x 由下面的退化过程得来,其中 表示 HR 清晰图像 x 与模糊核 k 之间的卷积,表示系数为 s 的降采样算子,n 表示标准差(噪声水平)为σ的加性高斯白噪声(AWGN)。SISR 方法主要分为三类:基于插值的方法、基于模型的方法以及基于判别学习的方法。基于插值的方法(例如:最近邻插值、双三次插值)虽然速度快,但是其效果比较差。基于模型的方法通过引入图像先验,例如:非局部相似性先验、去噪先验等,然后求解目标函数得到视觉质量较好的 HR 图像,然而速度较慢。虽然结合基于 CNN 的去噪先验可以在某种程度上提升速度,但仍然受限于一些弊端,例如:无法进行端对端的训练,包含一些比较难调的参数等。基于判别学习的方法尤其是基于 CNN 的方法因其速度快、可以端对端的学习因而效果好等在近几年受到了广泛关注,并且逐渐成为解决 SISR 的主流方法。自从首个用 CNN 解决 SISR 的工作 SRCNN 在 ECCV(2014)发表以来,各种不同的改进方法相继提出。例如,VDSR 在 PSNR 指标上取得了非常大的提升;ESPCN 和 FSRCNN 分别在速度上进行了改进;SRGAN 在放大倍数较大情况下针对视觉效果的改善提出了有效的方法。然而这些方法都存在一个共同缺点,也就是它们只考虑双三次 (bicubic) 降采样退化模型并且不能灵活的将其模型扩展到同时(非盲)处理其它退化类型。由于真实图像的退化过程多种多样,因而此类方法的有效实际应用场景非常有限。一些 SISR 工作已经指出图像退化过程中的模糊核的准确性对 SISR 起着至关重要的作用,然而并没有基于 CNN 的相关工作将模糊核等因素考虑在内。为此引出本文主要解决的问题:是否可以设计一个非盲超分辨率(non-blind SISR)模型用以解决不同的图像退化类型?本文首先分析了在最大后验(MAP)框架下的 SISR 方法,借此希望可以指导 CNN 网络结构的设计。由于 SISR 问题的不适定性,通常需要引入正则项来约束解空间。具体来说,LR 图像 y 对应的 HR 图像 x 可以通过求解下述问题近似,其中 为似然(也即数据保真)项,为先验(也即正则)项,λ为似然项和先验项之间的权衡参数。简单来说,上述公式包含两点:1)估计得到的 HR 图像不仅要符合 SISR 的退化过程,并且还要满足清晰图像所具有的先验特征;2)对于非盲超分辨率问题,x 的求解与 LR 图像 y、模糊核 k、噪声水平σ以及权衡参数λ有关。简而言之,非盲 SISR 的 MAP 估计可以表示为,其中∵为 MAP 估计中的参数。进而如果将 CNN 看作 MAP 估计另一种形式的解,那么有如下结论:由于数据保真项对应着 SISR 的退化过程,因此退化过程的准确建模对 SISR 的结果起着至关重要的作用。然而现有的基于 CNN 的方法其目标是求解下面的问题,由于没有将模糊核和噪声等因素考虑在内,因此其实用性非常有限。为了设计更加有效的基于 CNN 的 SISR 模型,应该将更多的图像退化类型考虑在内,一个简单的思路就是将模糊核 k 和噪声水平σ也作为网络的输入。由于权衡参数λ可以融入噪声水平σ之中,因此 CNN 映射函数可以简化成如下形式:由于 MAP 估计中大部分的参数都对应着图像先验部分,而图像先验是与图像退化过程不相关的,因此单一的 CNN 模型具有处理不同退化类型的建模能力。通过上述分析可以得出非盲 SISR 应该将退化模型中的模糊核和噪声水平也作为网络的输入。然而 LR 图像、模糊核和噪声水平三者的维度是不同的,因此不能直接作为 CNN 的输入。为此本文提出了一种维度拉伸策略。假设 LR 图像大小为 W×H,首先将向量化的模糊核 PCA 降维,然后和噪声水平并在一起得到一个 t+1 维的向量 v,接着将 v 拉伸为 W×H×(t+1) 维的张量,我们将此张量称之为退化图(Degradation Maps),其中第 i 个 W×H 图的所有元素均为 vi。
阿里巴巴Poster论文:处理多种退化类型的卷积超分辨率 | CVPR 2018