Real-ESRGAN：腾讯推出的开源图像分辨率提升模型

AI工具1年前 (2024)发布阿强

Real-ESRGAN是什么

Real-ESRGAN（Real-World Blind Super-Resolution with Pure Synthetic Data）是由腾讯的ARC实验室推出的一个开源深度学习模型，专门用于处理和提升低分辨率图像到高分辨率图像的质量。这个模型的特点是能够在没有真实高分辨率图像作为参考的情况下，通过合成的退化过程来训练，从而模拟现实世界中的图像退化。这种方法被称为“盲超分辨率”（blind super-resolution），因为它不需要知道图像是如何从高分辨率退化到低分辨率的。

Real-ESRGAN的功能特色

图像质量提升：将低分辨率的图像转换为高分辨率的图像，同时保持或增强图像的细节和纹理，减少模糊和噪点。
去除伪影：在图像放大过程中，Real-ESRGAN能够识别并减少常见的图像伪影，如振铃（ringing）和过冲（overshoot）。
模拟真实世界退化：通过高阶退化模型，Real-ESRGAN能够模拟现实世界中的多种图像退化过程，如相机模糊、传感器噪声、锐化、JPEG压缩等。
无需真实高分辨率图像：Real-ESRGAN的训练不依赖于真实高分辨率图像，而是通过合成的退化过程来生成训练数据，这使得模型能够在没有真实高分辨率图像的情况下进行训练。
增强图像细节：在提升分辨率的同时，Real-ESRGAN能够增强图像中的局部细节，如纹理、边缘和轮廓，使得放大后的图像更加清晰和自然。

Real-ESRGAN的官方入口

官方GiHub项目库：https://github.com/xinntao/Real-ESRGAN
研究论文：https://arxiv.org/abs/2107.10833
Replicate运行地址：https://replicate.com/xinntao/realesrgan
Google Colab运行地址：https://colab.research.google.com/drive/1k2Zod6kSHEvraybHl50Lys0LerhyTMCo?usp=sharing
Arc版Anime-6B：https://arc.tencent.com/zh/ai-demos/imgRestore

Real-ESRGAN的工作原理

Real-ESRGAN的工作原理基于深度学习和生成对抗网络（GAN）的框架，具体包括以下几个关键步骤：

数据合成：由于Real-ESRGAN训练时不使用真实的高分辨率图像，它首先需要合成训练数据。这通过模拟现实世界中的图像退化过程来实现，包括模糊、下采样、噪声添加和JPEG压缩等。这些过程模拟了从高分辨率图像到低分辨率图像的退化路径。为了增加多样性，Real-ESRGAN采用了高阶退化模型，即通过多次重复这些退化过程来生成训练样本。
模型架构：Real-ESRGAN使用了类似于ESRGAN的生成器网络，这是一个深度卷积神经网络（CNN），包含多个残差密集块（Residual-in-Residual Dense Blocks, RRDBs）。这个网络负责从低分辨率图像恢复出高分辨率图像。为了提高判别器的能力，Real-ESRGAN还采用了一个带有谱归一化（Spectral Normalization, SN）的U-Net判别器。
训练过程：训练分为两个阶段。首先，使用L1损失函数训练一个以峰值信噪比（PSNR）为导向的模型（Real-ESRNet）。然后，这个模型被用作生成器的初始化，并结合L1损失、感知损失（基于VGG网络的特征图）和GAN损失（对抗损失）来训练Real-ESRGAN。这种结合损失的方法旨在在提升图像细节的同时，保持图像的真实感。
谱归一化：为了稳定训练过程并提高判别器的性能，Real-ESRGAN在U-Net判别器中使用了谱归一化。这种技术有助于防止训练过程中的不稳定性和过拟合，同时能够提供更准确的梯度反馈，帮助生成器学习如何产生更逼真的图像。
生成高分辨率图像：在训练完成后，Real-ESRGAN的生成器网络能够接收低分辨率图像作为输入，并输出相应的高分辨率图像。这个过程中，模型会尝试恢复图像的细节，同时减少由于退化过程引入的伪影。
评估和优化：训练完成后，Real-ESRGAN的性能通过在多个真实世界数据集上的测试来评估。这包括使用非参考图像质量评估指标（如NIQE）和视觉比较。根据评估结果，可以对模型进行进一步的优化和调整。