Just image Transformer
原论文:https://www.alphaxiv.org/abs/2511.13720参考:https://zhuanlan.zhihu.com/p/1977479109690032906 https://zhuanlan.zhihu.com/p/1974626511182124468 1.扩散模型的发展历史在生成式模型领域,如GAN相比,扩散模型(如DDPM)一直被诟病的一个问题就是它的计算效率较低,因为像DDPM这样的模型的增噪,采样,去噪过程全部都是在原始图像的像素空间(pixel space)中进行的,除非图片的分辨率非常小(如16x16x3),否则该pixel space的维度是非常高的,导致模型的计算量和内存占用都非常大。ADM对DDPM进行了改进,但与GAN相比,效率依然差得很远。为了提升模型效率,Latent Diffusion Model(LDM)架构被提出,该架构包含一个VAE编码器,用于将图片从pixel space映射到一个低维的latent space中;一个针对latent...
Diffusion Transformer
原论文:https://arxiv.org/abs/2212.09748 参考:建议先看https://zhuanlan.zhihu.com/p/683657190 再看https://zhuanlan.zhihu.com/p/684125968, 会对DiT有一个相当透彻的理解 以下为Gemini概括的我在学习DiT过程中的对话内容,内容覆盖较为片面,仅供参考: 1. 核心架构:从 DDPM 到 DiTDiT 并不是脱离传统扩散模型的全新物种,而是对现有框架的“换擎升级”。 骨干网络替换:DiT 将传统 DDPM(去噪扩散概率模型)中基于 CNN 的 U-Net 替换成了 Vision Transformer (ViT)。 潜在扩散模型 (LDM):DiT 并不直接在原始像素空间生成图像,而是运行在由 VAE(变分自编码器)压缩后的 潜在空间 (Latent Space) 中。 VAE 的双重角色: 训练阶段(不可或缺):使用基于 CNN 的 VAE 编码器,将高分辨率图像压缩为低维潜在表示(建立潜在空间的数学分布),大幅降低 Transformer...
变分自编码器VAE
本文旨在用最简短的篇幅,描述VAE的核心思想与设计动机,仅作为日后回顾VAE的一个记忆锚点,具体公式和代码请参考其它资料。此外,本文尽可能省略一切数学推导 参考:https://zhuanlan.zhihu.com/p/574208925 ...
DDPM的核心思想
本文旨在用最简短的篇幅,描述DDPM的核心思想与设计动机,仅作为日后回顾DDPM的一个记忆锚点,具体公式和代码请参考其它资料。本文尽可能省略一切数学推导,跳略的推导会标注出来。 参考:https://zhuanlan.zhihu.com/p/650394311 https://lilianweng.github.io/posts/2021-07-11-diffusion-models/ 生成模型的目标,就是从一张随机图像(如纯噪声)开始,生成一张“真实”的图像,这里的“真实”是指生成的图像符合实际图像的概率分布(例如,一个人拥有黄色或白色皮肤的概率是比较大的,但是拥有蓝色皮肤却是几乎不可能的)。尽管现在大多数生成模型都支持根据输入的文字生成对应内容的图片,但那也只是通过在模型的每个模块加上文字的特征表示而训练得到的,对模型的整体结构影响不大,因此本文主要介绍DDPM从噪声生图的核心思想。 DDPM(以及所有生成式模型)的优化目标是让模型产生的图片分布和真实图片分布尽量相似,那么就有了以下推导过程: 为了使模型产生的图片分布和真实图片分布尽可能相似,我们要求...
李宏毅-扩散模型-学习笔记
原视频链接:https://www.bilibili.com/video/BV14c411J7f2原论文链接:https://arxiv.org/abs/2006.11239 1. DDPM 什么是扩散模型(Diffusion...
Swin Transformer论文精读-学习笔记
原论文链接:https://arxiv.org/abs/2103.14030原视频链接:https://www.bilibili.com/video/BV13L4y1475U 前言Swin Transformer,也就是Hierarchical Shifted Window Vision Transformer,是一种基于Transformer架构的计算机视觉模型,旨在解决传统Transformer在处理高分辨率图像时计算成本过高的问题。Swin Transformer通过引入窗口注意力机制和滑动窗口策略,有效地降低了计算复杂度,同时保持了强大的特征表达能力。Swin Transformer还在ViT的基础上,引入了类似传统CNN的分块的层级式结构,从而能够提取图像在不同尺度上的特征。此外,Swin Transformer在CV的绝大多数任务上都取得了优异的表现,再次证明了Transformer在CV领域的可行性与有效性,成为近年来计算机视觉领域的重要研究方向之一。 Swin...
ViT论文精读-学习笔记
原论文链接:https://arxiv.org/abs/2010.11929原视频链接:https://www.bilibili.com/video/BV15P4y137jb CV常见任务对比 任务 目标 结果形式 是否区分个体 精细度 图像分类 识别类别 标签 (Label) 否 最低(全局) 目标检测 定位+识别 矩形框 (Box) 是 中等(区域) 语义分割 像素分类 类别掩码 (Mask) 否 高(像素) 实例分割 个体像素分类 实例掩码 (Mask) 是 最高(像素) 前言传统的计算机视觉任务通常使用卷积神经网络(CNN)来处理图像数据。然而,近年来,Transformer架构在自然语言处理(NLP)领域取得了巨大成功,引起了研究人员的兴趣,尝试将其应用于计算机视觉任务。Vision...
为什么写博客
为什么写博客?记录一下自己写博客的原因。 笔记。帮助自己日后快速回忆起学过的内容 为有同样疑问的学习者答疑解惑(虽然现在都用AI了) 费曼学习法,在写博客的同时自己也在整理思路和语言,加深理解 博客在某种意义上也算是“养成系游戏”,可以从中获得成就感满足感,激励自己坚持下去 我一直坚持一种理念:没有记录的学习等于没有学习,只有把学到的东西记录下来,才能真正算是学会了,否则遗忘的速度是非常快的。
Zero to Hero学习笔记
Neural Networks: Zero to Hero学习笔记1.Micrograd12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879808182838485868788899091929394959697class Value: def __init__(self, data, _children=(), _op='', label=''): self.data = data self.grad = 0.0 self._backward = lambda: None self._prev = set(_children) self._op = _op self.label = label def __repr__(self): return...