USRNet
论文:http://openaccess.thecvf.com/content_CVPR_2020/papers/Zhang_Deep_Unfolding_Network_for_Image_Super-Resolution_CVPR_2020_paper.pdf参考:https://zhuanlan.zhihu.com/p/140507840 前言图像超分模型的目标,就是将一张以某种方式退化的图像还原回原始图像。图像退化的过程是不可逆的,必然会损失一些像素级的信息(由此就引出了不同模型的不同优化目标,例如有的模型追求数学上更接近原始图,如PSNR,有的模型则追求感知上更接近原始图,如GAN)。一般而言,广义降质过程可以通过如下公式进行刻画: y = (x \otimes k)\downarrow_s + n其中$y$是退化图像,$x$是原始图像,$k$是卷积核(模糊核),$\otimes$表示卷积操作,$\downarrow_s$表示下采样操作,$n$表示噪声。根据模糊核k,噪声水平$\sigma$,与下采样操作s的已知与否,图像超分任务分为非盲超分(non-blind...
SRGAN,ESRGAN,RealESRGAN
论文: SRGAN:https://arxiv.org/abs/1609.04802 ESRGAN:https://arxiv.org/abs/1809.00219 RealESRGAN:https://arxiv.org/abs/2107.10833 参考:https://zhuanlan.zhihu.com/p/595533046 https://zhuanlan.zhihu.com/p/542750836 SRGANSRGAN,即Super-Resolution Generative Adversarial Network,是一种基于生成对抗网络(GAN)的图像超分辨率方法。SRGAN的核心思想是通过一个生成器网络,输入低分辨率的图像,生成高分辨率图像,并使用一个判别器网络来评估生成图像的质量,从而使生成的图像尽可能接近真实的高分辨率图像。与传统的GAN不同,SRGAN引入了内容损失(Content Loss),该损失函数不仅考虑像素级的差异,还考虑了图像的高层次特征,从而能够生成更具视觉质量的图像。 l^{SR} = \underbrace{...
生成对抗网络GAN
论文:https://arxiv.org/abs/1406.2661参考:https://www.bilibili.com/video/BV1rb4y187vD https://zhuanlan.zhihu.com/p/266677860 前言GAN(Generative Adversarial...
SwinIR
原论文:https://arxiv.org/abs/2108.10257参考:https://zhuanlan.zhihu.com/p/558789076 https://deepwiki.com/JingyunLiang/SwinIR 前言在图像修复(Restoration),去噪(Denoising),超分辨率(Super-Resolution,SR)等领域,CNN由于其优越的归纳偏置展现出与CV任务极强的适配性,然而CNN有几个致命的缺陷:首先,卷积核中的参数对于图像的每个区域都是固定的,无法根据图像的上下文动态调整,其次卷积依赖于locality假设,在长距离建模中表现不佳,由此引出了与Transformer结合的视觉模型ViT,然而ViT也有几个问题,首先ViT使用的patches在每一层都是一样的(包括大小和位置),这就导致恢复后的图像可能会在每个patch周围引入边界伪影,其次patchify操作导致边界像素不能利用patch之外的邻近像素进行图像恢复。 SwinIRSwin...
Just image Transformer
原论文:https://www.alphaxiv.org/abs/2511.13720参考:https://zhuanlan.zhihu.com/p/1977479109690032906 https://zhuanlan.zhihu.com/p/1974626511182124468 1.扩散模型的发展历史在生成式模型领域,如GAN相比,扩散模型(如DDPM)一直被诟病的一个问题就是它的计算效率较低,因为像DDPM这样的模型的增噪,采样,去噪过程全部都是在原始图像的像素空间(pixel space)中进行的,除非图片的分辨率非常小(如16x16x3),否则该pixel space的维度是非常高的,导致模型的计算量和内存占用都非常大。ADM对DDPM进行了改进,但与GAN相比,效率依然差得很远。为了提升模型效率,Latent Diffusion Model(LDM)架构被提出,该架构包含一个VAE编码器,用于将图片从pixel space映射到一个低维的latent space中;一个针对latent...
Diffusion Transformer
原论文:https://arxiv.org/abs/2212.09748 参考:建议先看https://zhuanlan.zhihu.com/p/683657190 再看https://zhuanlan.zhihu.com/p/684125968, 会对DiT有一个相当透彻的理解 以下为Gemini概括的我在学习DiT过程中的对话内容,内容覆盖较为片面,仅供参考: 1. 核心架构:从 DDPM 到 DiTDiT 并不是脱离传统扩散模型的全新物种,而是对现有框架的“换擎升级”。 骨干网络替换:DiT 将传统 DDPM(去噪扩散概率模型)中基于 CNN 的 U-Net 替换成了 Vision Transformer (ViT)。 潜在扩散模型 (LDM):DiT 并不直接在原始像素空间生成图像,而是运行在由 VAE(变分自编码器)压缩后的 潜在空间 (Latent Space) 中。 VAE 的双重角色: 训练阶段(不可或缺):使用基于 CNN 的 VAE 编码器,将高分辨率图像压缩为低维潜在表示(建立潜在空间的数学分布),大幅降低 Transformer...
变分自编码器VAE
本文旨在用最简短的篇幅,描述VAE的核心思想与设计动机,仅作为日后回顾VAE的一个记忆锚点,具体公式和代码请参考其它资料。此外,本文尽可能省略一切数学推导 参考:https://zhuanlan.zhihu.com/p/574208925 ...
DDPM的核心思想
本文旨在用最简短的篇幅,描述DDPM的核心思想与设计动机,仅作为日后回顾DDPM的一个记忆锚点,具体公式和代码请参考其它资料。本文尽可能省略一切数学推导,跳略的推导会标注出来。 参考:https://zhuanlan.zhihu.com/p/650394311 https://lilianweng.github.io/posts/2021-07-11-diffusion-models/ 生成模型的目标,就是从一张随机图像(如纯噪声)开始,生成一张“真实”的图像,这里的“真实”是指生成的图像符合实际图像的概率分布(例如,一个人拥有黄色或白色皮肤的概率是比较大的,但是拥有蓝色皮肤却是几乎不可能的)。尽管现在大多数生成模型都支持根据输入的文字生成对应内容的图片,但那也只是通过在模型的每个模块加上文字的特征表示而训练得到的,对模型的整体结构影响不大,因此本文主要介绍DDPM从噪声生图的核心思想。 DDPM(以及所有生成式模型)的优化目标是让模型产生的图片分布和真实图片分布尽量相似,那么就有了以下推导过程: 为了使模型产生的图片分布和真实图片分布尽可能相似,我们要求...
李宏毅-扩散模型-学习笔记
原视频链接:https://www.bilibili.com/video/BV14c411J7f2原论文链接:https://arxiv.org/abs/2006.11239 1. DDPM 什么是扩散模型(Diffusion...
Swin Transformer论文精读-学习笔记
原论文链接:https://arxiv.org/abs/2103.14030原视频链接:https://www.bilibili.com/video/BV13L4y1475U 前言Swin Transformer,也就是Hierarchical Shifted Window Vision Transformer,是一种基于Transformer架构的计算机视觉模型,旨在解决传统Transformer在处理高分辨率图像时计算成本过高的问题。Swin Transformer通过引入窗口注意力机制和滑动窗口策略,有效地降低了计算复杂度,同时保持了强大的特征表达能力。Swin Transformer还在ViT的基础上,引入了类似传统CNN的分块的层级式结构,从而能够提取图像在不同尺度上的特征。此外,Swin Transformer在CV的绝大多数任务上都取得了优异的表现,再次证明了Transformer在CV领域的可行性与有效性,成为近年来计算机视觉领域的重要研究方向之一。 Swin...