Qz's Blog

VOSR -- A Vision-Only Generative Model for Image Super-Resolution

发表于2026-06-03|技术AICVSuper ResolutionVOSR

原论文：https://arxiv.org/pdf/2604.03225 这篇工作是CVPR 2026的文章之一，提出的实现和结构不算太复杂，但是个人认为作者在这篇文章中对SR任务的本质及其与生成任务的区别分析的非常透彻，也与笔者的部分观念不谋而合。非常推荐仔细阅读一下原论文，相信能让你对SR有更深的理解。引言目前SOTA的SR模型，基本上都是从 generic T2I generator 出发，利用T2I 生成模型具备的大量真实图像先验来生成具备极佳细节的HR图像，这些方法通过prompt exacting，adapter等方法将LR转换为某种condition输入到T2I生成模型的DiT中。尽管有效，这些⽅法是适配 generic T2I generator 来处理 LR input，⽽不是直接为 detail generation 训练 restoration model，也就是说，不是原生SR模型（native SR...

近期论文的takeaway

发表于2026-05-29|技术AICVGenerative Model

L2P: UNLOCKING LATENT POTENTIAL FOR PIXEL GENERATION 传统LDM的瓶颈很大程度上在于VAE encoder和VAE decoder，VAE参数量大，推理速度慢，且decoder无法重建出细节较好的图像。直接训练一个pixel space的模型可以解决这些问题，但是pixel space对GPU和数据的要求很高。能不能利用LDM模型的diffusion组件中的先验知识，训练一个pixel space的模型呢？L2P就是这么做的。 L2P直接使用LDM的DiT，从而能够有效使用DiT权重中的大量先验知识。它去掉了VAE encoder和decoder，通过增加patch的大小，使得latent space中的DiT能直接用于pixel space。使用一个轻量的U-net decoder接在DiT最后作为像素生成器。训练时直接在像素空间计算v-loss，冻结 DiT backbone 的中间层，并只训练浅层输⼊和输出层（初始输⼊投影层、DiT 的前n个和后n个 blocks，以及新添加的 Detailer...

Drifting Model

发表于2026-05-16|技术AICVGenerative Model

原论文：https://arxiv.org/abs/2602.04770 参考：https://zhuanlan.zhihu.com/p/2004241203365946177 https://www.zhihu.com/question/2002852610374391417/answer/2003533688185587048 概述Drifting...

FD-loss:一种新的优化目标

发表于2026-05-07|技术AICVGenerative Modelloss

原论文：Representation Fréchet Loss for Visual Generation 预备：Fréchet DistanceFréchet Distance（FD）是一种衡量两个概率分布之间差异的指标，常用于评估生成模型生成图像的质量。它通过计算生成图像和真实图像在特征空间中的均值和协方差来衡量两者之间的距离。令 $\phi(\cdot)$ 表示一个特征提取器。给定真实图像 $\mathcal{R}={\mathbf{x}_i}$ 和生成图像 $\mathcal{G}={\hat{\mathbf{x}}_i}$，它们的特征分布被建模为具有均值和协方差的多元高斯： \boldsymbol{\mu}_r = \mathbb{E}[\phi(\mathbf{x})], \quad \boldsymbol{\Sigma}_r = \mathrm{Cov}[\phi(\mathbf{x})], \qquad \boldsymbol{\mu}_g = \mathbb{E}[\phi(\hat{\mathbf{x}})], \quad ...

Mean Flow

发表于2026-05-04|技术AICVGenerative Modelflow matching

参考：https://zhuanlan.zhihu.com/p/1908857108243407231 https://www.zhihu.com/question/1982041752169910918/answer/1982042548311700867 原论文：https://arxiv.org/abs/2512.02012 Mean Flow简述Mean Flow的核心思路在于，它不再像flow matching那样通过让模型预测条件瞬时速度的期望从而预测边缘瞬时速度v，而是通过让模型学习预测边缘平均速度u。通过推导，得到以下边缘平均速度的表达式MeanFlow 恒等式（MeanFlow Identity）： u(z_t, r, t) = v(z_t, t) - (t-r) \frac{d}{dt} u(z_t, r, t)...

几篇文章的takeaway

发表于2026-04-28|技术AICVGenerative Model

SR3 SR3将DDPM应用于图像超分辨率任务，取得了很好的效果。具体来说，SR3现将低分辨率图像通过简单的插值方法（如bicubic）放大到目标分辨率，然后在DDPM的每一步，将这个插值后的低分辨率图像concat到带噪声图像xt的通道维度上，交由网络处理。 SR3在每一步t没有使用DDPM原始的$\bar\alpha_t$，而是从$\bar\alpha\sim...

怒放

发表于2026-04-25|随笔感悟

《红星照耀中国》“我的职位如此之低，以致人们都不屑和我来往。我的工作之一就是登记来馆读报的人名，不过这般人大半都不把我放在眼里。在这许多人名之中，我记得有几个是新文化运动著名的领袖，是我十分景仰的人。我很想和他们讨论关于政治和文化的事情，不过他们都是极忙的人，没有时间来倾听一个南边口音的图书佐理员所讲的话。但是我不因此而丧气，我仍然参加哲学研究会和新闻学研究会，想藉此能听大学里的课程。我自己在北平的生活是十分困苦的。我住在一个叫三眼井的地方，和另外七个人合住一个小房间，我们全体挤在炕上，连呼吸的地方都没有。每逢我翻身都得预先警告身旁的人。不过在公园和故宫的宫址我看到了北国的早春，在坚冰还盖着北海的时候，我看到了怒放的梅花。北京的树木引起了我无穷的欣赏。”

Flow matching 与 Rectified flow

发表于2026-04-23|技术AICVGenerative Modelflow matching

参考：FM:先看文章一再看文章二 Rectified flow:原作者的博文另一篇对Rectified flow的解读，个人认为视角非常高，暂时没完全理解论文：Flow Matching for Generative Modeling Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow Occam’s razor:Entities must not be multiplied beyond necessity 前言我们知道，图像生成模型的根本目的在于找到一个从先验分布到数据分布到映射。在现实世界中，我们只有真实数据和纯噪声，而看不到从噪声到数据的中间过渡过程，那么，我们的模型就需要建模这个过程，使得在这样的过程假设下（注意，这里说的是“假设”，因为根本不存在一个“客观正确”的转换过程），模型能够产生一个与数据分布尽可能接近的分布。Flow...

DDIM

发表于2026-04-22|技术AICVGenerative ModelDDPM

参考：https://zhuanlan.zhihu.com/p/614147698 https://zhuanlan.zhihu.com/p/565698027 ...

Score-based models

发表于2026-04-19|技术AICVGenerative Modelscore-based model

参考:https://yang-song.net/blog/2021/score/ https://yang-song.net/blog/2019/ssm/原论文:https://arxiv.org/pdf/1907.05600 https://arxiv.org/pdf/2011.13456 … 前言首先，无论是学习还是回顾，都非常建议先阅读这篇博文，作者为Yang Song，是score系列模型及其相关工作的核心人物。该文章从传统的likelihood-based models和implicit generative models讲起，通过它们的不足引出score functions,score-based models,score matching,Langevin dynamics sampling,annealed Langevin sampling,SDE,Probability flow...