Flow matching 与 Rectified flow
参考:FM:先看文章一再看文章二 Rectified flow:原作者的博文另一篇对Rectified flow的解读,个人认为视角非常高,暂时没完全理解 论文:Flow Matching for Generative Modeling Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow Occam’s razor:Entities must not be multiplied beyond necessity 前言我们知道,图像生成模型的根本目的在于找到一个从先验分布到数据分布到映射。在现实世界中,我们只有真实数据和纯噪声,而看不到从噪声到数据的中间过渡过程,那么,我们的模型就需要建模这个过程,使得在这样的过程假设下(注意,这里说的是“假设”,因为根本不存在一个“客观正确”的转换过程),模型能够产生一个与数据分布尽可能接近的分布。Flow...
DDIM
参考:https://zhuanlan.zhihu.com/p/614147698 https://zhuanlan.zhihu.com/p/565698027 ...
Score-based models
参考:https://yang-song.net/blog/2021/score/ https://yang-song.net/blog/2019/ssm/原论文:https://arxiv.org/pdf/1907.05600 https://arxiv.org/pdf/2011.13456 … 前言首先,无论是学习还是回顾,都非常建议先阅读这篇博文,作者为Yang Song,是score系列模型及其相关工作的核心人物。该文章从传统的likelihood-based models和implicit generative models讲起,通过它们的不足引出score functions,score-based models,score matching,Langevin dynamics sampling,annealed Langevin sampling,SDE,Probability flow...
追求卓越
OSTEP”在每一个伟大的产品或技术后面都有这样一个人(或一小群人),他们的天赋、能力和奉献精神远超众人。Facebook 的 Mark Zuckerberg 曾经说过:“那些在自己的领域中超凡脱俗的人,比那些相当优秀的人强得不是一点点。”这就是为什么,会有人成立自己的公司, 然后永远地改变了这个世界(想想 Google、Apple 和 Facebook)“
USRNet
论文:http://openaccess.thecvf.com/content_CVPR_2020/papers/Zhang_Deep_Unfolding_Network_for_Image_Super-Resolution_CVPR_2020_paper.pdf参考:https://zhuanlan.zhihu.com/p/140507840 前言图像超分模型的目标,就是将一张以某种方式退化的图像还原回原始图像。图像退化的过程是不可逆的,必然会损失一些像素级的信息(由此就引出了不同模型的不同优化目标,例如有的模型追求数学上更接近原始图,如PSNR,有的模型则追求感知上更接近原始图,如GAN)。一般而言,广义降质过程可以通过如下公式进行刻画: y = (x \otimes k)\downarrow_s + n其中$y$是退化图像,$x$是原始图像,$k$是卷积核(模糊核),$\otimes$表示卷积操作,$\downarrow_s$表示下采样操作,$n$表示噪声。根据模糊核k,噪声水平$\sigma$,与下采样操作s的已知与否,图像超分任务分为非盲超分(non-blind...
SRGAN,ESRGAN,RealESRGAN
论文: SRGAN:https://arxiv.org/abs/1609.04802 ESRGAN:https://arxiv.org/abs/1809.00219 RealESRGAN:https://arxiv.org/abs/2107.10833 参考:https://zhuanlan.zhihu.com/p/595533046 https://zhuanlan.zhihu.com/p/542750836 SRGANSRGAN,即Super-Resolution Generative Adversarial Network,是一种基于生成对抗网络(GAN)的图像超分辨率方法。SRGAN的核心思想是通过一个生成器网络,输入低分辨率的图像,生成高分辨率图像,并使用一个判别器网络来评估生成图像的质量,从而使生成的图像尽可能接近真实的高分辨率图像。与传统的GAN不同,SRGAN引入了内容损失(Content Loss),该损失函数不仅考虑像素级的差异,还考虑了图像的高层次特征,从而能够生成更具视觉质量的图像。 l^{SR} = \underbrace{...
生成对抗网络GAN
论文:https://arxiv.org/abs/1406.2661参考:https://www.bilibili.com/video/BV1rb4y187vD https://zhuanlan.zhihu.com/p/266677860 前言GAN(Generative Adversarial...
SwinIR
原论文:https://arxiv.org/abs/2108.10257参考:https://zhuanlan.zhihu.com/p/558789076 https://deepwiki.com/JingyunLiang/SwinIR 前言在图像修复(Restoration),去噪(Denoising),超分辨率(Super-Resolution,SR)等领域,CNN由于其优越的归纳偏置展现出与CV任务极强的适配性,然而CNN有几个致命的缺陷:首先,卷积核中的参数对于图像的每个区域都是固定的,无法根据图像的上下文动态调整,其次卷积依赖于locality假设,在长距离建模中表现不佳,由此引出了与Transformer结合的视觉模型ViT,然而ViT也有几个问题,首先ViT使用的patches在每一层都是一样的(包括大小和位置),这就导致恢复后的图像可能会在每个patch周围引入边界伪影,其次patchify操作导致边界像素不能利用patch之外的邻近像素进行图像恢复。 SwinIRSwin...
Just image Transformer
原论文:https://www.alphaxiv.org/abs/2511.13720参考:https://zhuanlan.zhihu.com/p/1977479109690032906 https://zhuanlan.zhihu.com/p/1974626511182124468 1.扩散模型的发展历史在生成式模型领域,如GAN相比,扩散模型(如DDPM)一直被诟病的一个问题就是它的计算效率较低,因为像DDPM这样的模型的增噪,采样,去噪过程全部都是在原始图像的像素空间(pixel space)中进行的,除非图片的分辨率非常小(如16x16x3),否则该pixel space的维度是非常高的,导致模型的计算量和内存占用都非常大。ADM对DDPM进行了改进,但与GAN相比,效率依然差得很远。为了提升模型效率,Latent Diffusion Model(LDM)架构被提出,该架构包含一个VAE编码器,用于将图片从pixel space映射到一个低维的latent space中;一个针对latent...
Diffusion Transformer
原论文:https://arxiv.org/abs/2212.09748 参考:建议先看https://zhuanlan.zhihu.com/p/683657190 再看https://zhuanlan.zhihu.com/p/684125968, 会对DiT有一个相当透彻的理解 以下为Gemini概括的我在学习DiT过程中的对话内容,内容覆盖较为片面,仅供参考: 1. 核心架构:从 DDPM 到 DiTDiT 并不是脱离传统扩散模型的全新物种,而是对现有框架的“换擎升级”。 骨干网络替换:DiT 将传统 DDPM(去噪扩散概率模型)中基于 CNN 的 U-Net 替换成了 Vision Transformer (ViT)。 潜在扩散模型 (LDM):DiT 并不直接在原始像素空间生成图像,而是运行在由 VAE(变分自编码器)压缩后的 潜在空间 (Latent Space) 中。 VAE 的双重角色: 训练阶段(不可或缺):使用基于 CNN 的 VAE 编码器,将高分辨率图像压缩为低维潜在表示(建立潜在空间的数学分布),大幅降低 Transformer...