Super-Resolution

open source image and video super-resolution works

Posted on 11.1, 2019


SubPixel

    一般来说在Pixel shuffle之后会接一个卷积,防止上采样出现一些错误。
    RCAN等超分模型都考虑了这点,CAIN插帧模型却没有考虑到。| Quoting Zhaoyang

    RCAN
    modules_tail = [
            common.Upsampler(conv, scale, n_feats, act=False),
            conv(n_feats, args.n_colors, kernel_size)]
    Upsampler内部实现卷积通道数 n_feats → n_feats * (scale**2) → pixelshuffle n_feats
    调用nn.PixelShuffle

    CAIN
    实现pixelshuffle,但使用时通道数恰好 n_feats → n_colors
    https://github.com/myungsub/CAIN/blob/master/model/common.py

关于view与图像分块、亚像素提取

    灵活地使用view,既能实现down-shuffle和pixel-shuffle,也可以实现图像分块。
    但要注意区别:
    view(batch_size, channels, out_height, block_size, out_width, block_size)是down-shuffle,
    view(batch_size, channels, block_num, out_height, block_num, out_width)是图像分块。 
    其实有个类似的有趣的话题,关于时序的建模
    加入source_clip是B,T,C,H,W维度的时序序列。
    方式1: source_clip = torch.cat(torch.split(source_clip, 1, dim=1), 0).squeeze(1).float().cuda()
    方式2: source_clip = source_clip.reshape(B*T,C,H,W)
    这两个也是有些许不同的,网络可以从 batch 维度学习到一些有价值的信息,如样本的采样顺序、相关性、噪声干扰等。
    但我觉得最终这两应该都影响,只是大家都沿用了Wav2Lip的实现方式。

Global-skip-connection and Meanshift

Global-skip-connection 全局残差区分高低频,改变优化目标。
Meanshift 均值归一,增加样本稳定性。我认为是对超分任务不用BN层的一种补偿。
According to the experience of Lim et al., it should help stabilize the training
but doesn't affect the PSNR obviously.  thstkdgus35/EDSR-PyTorch#71、#94
1、
def forward(self, x):
        x = self.sub_mean(x)

        x = self.head(x)
        res = self.body(x)
        res += x
        x = self.tail(res)

        x = self.add_mean(x)
2、
def forward(self, x):
        x = self.sub_mean(x)
        base = F.interpolate(x, scale_factor=4, mode='bilinear', align_corners=False)

        x = self.head(x)
        x = self.body(x)
        x = self.tail(x)
        x += base

        x = self.add_mean(x)
1、2方案在插值前后进行全局残差,区别不大。效果一定程度等价。

Y or RGB

团队最开始基于Y通道进行超分,但经过一段时间的运营,发现视频源是清晰的情况下,如果单独把Y通道单独提取出来会有很多奇怪的纹理和毛刺,超分后会放大这些异常。
如果基于RGB超分则不会有这样的问题。虽然Y通道有自身的缺点,但在实际的落地过程中,很多场景还是离不开基于Y通道的超分。比如直播中的 4K超分,为了保证实时性,
会对一路直播流进行分布式的拆分,路由到多台GPU节点进行处理,而在分布式超分的场景中,使用Y通道传输可以节省带宽的消耗。
YUV和RGB互转要考虑的东西有两个

一个是Matrix,是BT601还是BT709,还是4K时代的BT2020,,Ycgco

不同的matrix的色彩范围不一样 数值也有差

一般HD视频(1080p)使用BT601 转换, UHDTV(4k或8K)使用BT2020协议转换 , 若视频信号中无色域标志或者色彩转换矩阵 , 默认使用BT601即可, 
ffmpeg转rgb也是这样操作的
    
第二个是range,YUV里TV和PC显示器的数值范围不一样

YUV和RGB互转有两套公式,对应两种range

8bit位深的情况下

TVrange是16-235(Y)、16-240(UV) 称为limited range

PCrange是0-255 称为full range

而RGB没有range之分,全是0-255

YUV : YUV是一种模拟型号, Y∈ [0,1]   U,V∈[-0.5,0.5] 
YCbCr :也叫YCC,  YCbCr 是数字信号, 它包含两种形式, 分别为TV range 和 full range
我们平时接触到的绝大多数都是 YCbCr (tv range) , ffmpeg 解码出来的数据绝大多数也是这个, 虽然ffmpeg 里面将它的格式描述成YUV420P , 实际上它是YCbCr tv range

Checkerboard

关于棋盘纹的问题,pixel-shuffle仍是会出现的。这个和pixel-shuffle前一个卷积的表现是息息相关的。
    使用ICNR初始化是有帮助的,它保证具有相关性的卷积来处理相邻的像素,也等价于最近邻插值后进行卷积(也同时保持着pixel-shuffle参数多、速度快的优势)。
    同时对bias也零值初始化self.conv.bias.data.zero_(),不然默认是均匀分布。
    个人认为,除此之外,我们也可以特别关注下pixel-shuffle前的卷积,在训练收敛后单独对这一层进行finetune或许会有帮助。

Training

感受野足够大的话,增大patchsize接着训是会涨点的。训练集loss不一定降,但patchsize更接近验证集的尺寸,有助于验证集指标提升。

Testing

1. 对Metircs的方差进行分析,可以挑选出具备更好泛化性能的模型。
2. 网络插值 :在MSE、GAN; different noise levels and blur kernels; different aesthetic flavors. 这三种取舍中有很好的表现。
3. 网络插值的变种 :历史平均,对不同epoch产生的中间模型求参数均值,生成一个新的模型,经测试该模型泛化效果更好,生成的图片多样性更强。

GAN Loss

1. VGG + 0.1GAN :使用感知损失,可能和对抗损失的相性比L1/L2要好。这样优化目标内部不会有矛盾。
   相性不好的弊端是 - 训练不稳定,容易震荡。生成器并不会因为判别器更强,而着力于生成更"真实"的图片,仍然在追求最小化欧式距离。待到判别器变强后,loss会震荡增加。
2. PSNR & GAN网络插值 :网络插值技术的提出,也绕开了这个难题。在最优化GAN loss时,完全可以不搭配PSNR-oriented loss.
    3. 判别器可以考虑 RelativeGAN + PatchGAN,前者训练稳定,后者输出的是一个N x N的矩阵,更适用于要求高分辨率、高清细节的视觉任务中。

VGG Loss

    可以做的改进也不少。
    首先,可视化了解HR图像和模糊图像(或LR图像bicubic上采样)特征的差异:
    一些工作的观点认为:感知损失成功的关键是网络结构而非预训练权重。

MMSR

港中文mmlab的项目,基于实验室之前的工作:BasicSR、ESRGAN和EDVR.
 
Highlights
    
  • A unified framework suitable for image and video super-resolution tasks. It is also easy to adapt to other restoration tasks, e.g., deblurring, denoising, etc.
  • State of the art: It includes several winning methods in competitions: such as ESRGAN (PIRM18), EDVR (NTIRE19).
  • Easy to extend: It is easy to try new research ideas based on the code base.
  • 数据集准备 为了更快的IO速度,训练数据使用了LMDB格式。不过验证/测试数据就直接读了(using image folder)。如果你不想使用LMDB,也可以使用image folder. lightning memory-mapped database 基于B+树索引,高效快速的内存映射数据库。 不过lmdb对随机访问不友好,shuffle+读取会比较慢。所以caffe做lmdb数据集时都是先shuffle一次再制作,之后shuffle=False了。 测试 关于data_mode, vid4 就是Vimeo90k超分的。 sharp_bicubic|blur_bicubic|blur|blur_comp 是REDS的四个赛道。 对二者训练的主要区别就是vid4适合7帧输入,REDS适合5帧。(可能说REDS运动更剧烈,更难对齐) 现在我们测试自己的testset,比如来自aicomp的或者优酷的,就按照sharp_bicubic替换就好了。

    超分选择模型的吐槽

        GANs have serious problems with mode collapse, likelihood and MSE-based models just blur everything, flow-based models have artifact problems due to the restricted operator set they use. Autoregressive models are promising but are tricky to apply to SR and do not scale to high-resolution images. Diffusion models are notorious for being quite slow at processing.
    

    Reading list

    ChaofWang / Awesome-Super-Resolution
    

    Computer Vision

    • Kornia
    • 基于PyTorch的可微计算机视觉库  kornia  

    Interpretable Low-Level Vision

    大赛方案

    扩展: 优酷天池超分大赛
          巧改EDVR方案报告链接
          EDVR详细分析简书链接
    
          首届全国人工智能大赛
          AI+4K HDR方案分享报告链接
    

    Leaderboards

    Usually the benchmarks are single-image super-resolution (SISR) tasks.
  • 图像超分
  •     各benchmarks榜单 入口
    

    视频复原数据集

        视频压缩、质量评估
        https://www.its.bldrdoc.gov/vqeg/video-datasets-and-organizations.aspx
        https://www.cdvl.org/
        youtube:
        grep ''