Classifier guidance与Classifier free diffusion的简单理解

参考:Classifier Guidance 和 Classifier Free Guidance,一堆公式不如两行代码 - 蓟梗的文章 - 知乎
https://zhuanlan.zhihu.com/p/660518657
Classifier Guidance和Classifier-free Guidance 总结 - 走遍山水路的文章 - 知乎
https://zhuanlan.zhihu.com/p/675387002


场景:首先,有一个训好的diffusion模型,可以从高斯分布的噪声生成图片。
现在,你希望对生成的图片加以控制,让它生成你想要的图片。

方法一:使用一个训练好的分类器来监督,辅助diffusion生成

eg. 在diffusion的每个时间步,将生成好的图像放进分类器分类,然后将分类损失对于噪声图片的梯度与生成的图片相加,使得生成的图片向正确图片迈进

方法二:使用condition前后的差值作为辅助

eg. condition是指文本prompt。将输入空文本时的去噪输出+scale*(输入prompt后的输出-空文本去噪输出),即可得到输出
注意,因为原本diffusion是不接收文本输入的,现在要加上文本condition,自然需要重新训练
另外,文本输入的编码器是clip encoder


简单理解就是上面这样,接下来看看推导:

方法一

在这里插入图片描述
如图所示,y是类别,比如猫、狗之类, x t x_t xt是生成的图像。现在我们要在已知y的情况下得到图像,也就是左上角最原始的式子

  1. 第一行,通过贝叶斯公式将概率公式转化
  2. 第二行,通过log函数的公式将乘除拆分为加减
  3. 第三行,第一部分是 p ( x ) p(x) p(x),也就是图像的概率(全概率),也就是直接用diffussion推导得到的下个时间步的图像;第二部分是已知图像,y的概率,可以看作一个分类器,将生成的图像分类,然后求对应类别y的梯度;第三部分,本来还应该一个东西,但由于y固定,所以 p ( y ) p(y) p(y)也是确定的,不会有梯度,因此省略。

综上来说,最终的结果就是当前生成的图像+分类器的梯度

方法二

我们已经得到了condition下的图像概率:
在这里插入图片描述
上面把分类器的公式进行了进一步推导,到最后变成了套娃,“要求我自己时,还需要我自己参与”
有条件的输出 = 无条件时的输出+ γ \gamma γ(有条件的输出-无条件的输出)
无条件的输出相当于diffusion的一张正常图片,右边这部分相当于加上condition的特征

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/604484.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【雅思写作】Vince9120雅思小作文笔记——P1 Intro(前言)

文章目录 链接P1 Intro(前言)字数限制题型综述(problem types overview)1. **柱状图(Bar Chart)** - 描述不同类别在某个或多个变量上的数据量比较。2. **线图(Line Graph)** - 展示…

Lib city笔记:TrajectoryDataset

1 AbstractDataset 抽象类,所有数据集的基类 2 TrajectoryDataset 2.1 __init__ 2.2 get_data 2.3 cutter_filter 2.3.1 按照时间间隔切割 2.3.2 按照同一天切割 2.3.3 按照固定窗口长度切割 cut完的轨迹样子 每一个key是一个轨迹的id,对应的value内容…

SQL查询语句(三)范围查找关键字

在上一篇文章中,我们介绍了SQL语句中,逻辑关键字的作用,并举例演示了如何用逻辑关键字来组合WHERE子句。在文章的末尾我们提到了两个用于范围查找的关键字IN和BETWEEN。这两个关键字都可以与NOT关键字灵活组合,起到对字句结果取反…

Crowd counting 系列NO.2—MCNN

声明:博客是用latex写的,所以直接用图片来展示吧,效果是一样的。下载资源网上都很容易搜到,如需下载资源,请留言。

Java内存是怎样分配的

Java内存是怎样分配的 一、 1. 有些编程语言编写的程序会直接向操作系统请求内存,而 Java 语言为保证其平台无关性,并不允许程序直接向操作系统发出请求,而是在准备执行程序时由Java虚拟机(JVM)向操作系统请求一定的…

基于SpringBoot+Vue点餐系统设计和实现(源码+LW+部署讲解)

🌹作者简介:✌全网粉丝10W,前大厂员工,多篇互联网电商推荐系统专利,现有多家创业公司,致力于建站、运营、SEO、网赚等赛道。也是csdn特邀作者、博客专家、Java领域优质创作者,博客之星、掘金/华…

VxTerm使用教程:连接SSH服务端设备,什么是SSH

一、什么是SSH&#xff1f; <摘自百度> 安全外壳协议 SSH&#xff0c;即安全外壳协议&#xff08;Secure Shell&#xff09;&#xff0c;是一种网络协议&#xff0c;用于在计算机网络上提供安全的远程登录和命令执行功能。 SSH通过加密通信通道来保护数据传输&#xff0c…

C++:类与对象—继承

类与对象—继承 一、继承是什么&#xff1f;二、继承定义三、基类和派生类对象赋值转换四、继承中的作用域五、派生类的默认成员函数六、继承与友元七、继承与静态成员八、复杂的菱形继承及菱形虚拟继承九、继承的总结和反思十、考察重点 一、继承是什么&#xff1f; 继承(inh…

每日OJ题_记忆化搜索①_力扣509. 斐波那契数(四种解法)

目录 记忆化搜索概念和使用场景 力扣509. 斐波那契数 解析代码1_循环 解析代码2_暴搜递归 解析代码3_记忆化搜索 解析代码4_动态规划 记忆化搜索概念和使用场景 记忆化搜索是一种典型的空间换时间的思想&#xff0c;可以看成带备忘录的爆搜递归。 搜索的低效在于没有能够…

YOLOv5改进(二)BiFPN替换Neck网络

前言 针对红绿灯轻量化检测&#xff0c;上一节使用MobileNetv3替换了主干网络&#xff0c;本篇将在使用BiFPN替换Neck的方式优化算法~ 往期回顾 YOLOv5改进&#xff08;一&#xff09;MobileNetv3替换主干网络 目录 一、BiFPN简介二、改进方法一第一步&#xff1a;在common.…

十分钟掌握Java集合之List接口

哈喽&#xff0c;各位小伙伴们&#xff0c;你们好呀&#xff0c;我是喵手。运营社区&#xff1a;C站/掘金/腾讯云&#xff1b;欢迎大家常来逛逛 今天我要给大家分享一些自己日常学习到的一些知识点&#xff0c;并以文字的形式跟大家一起交流&#xff0c;互相学习&#xff0c;一…

智慧电力,山海鲸引领

随着科技的不断进步和电力行业的快速发展&#xff0c;智能化管理已成为电力行业的重要趋势。在这一背景下&#xff0c;山海鲸智慧电力管理系统凭借其卓越的性能和创新的功能&#xff0c;为电力行业带来了革命性的改变。 山海鲸智慧电力管理系统是一套集数据采集、分析、展示于…

视频号小店常见问题合集,准备做视频号小店的,赶紧收藏起来

大家好&#xff0c;我是电商花花。 现在视频号小店在电商行业中越来越受欢迎&#xff0c;视频号背后依靠者微信和腾讯强大的流量&#xff0c;拥有着超强的流量和市场&#xff0c;在今年的电商市场中有引起了一个热门话题&#xff0c;作为一个有流量有市场的新兴创业自然是吸引…

使用python将`.mat`文件转换成`.xlsx`格式的Excel文件!!

要将.mat文件转换成.xlsx格式的Excel文件 第一步&#xff1a;导入必要的库第二步&#xff1a;定义函数来转换.mat文件第三步&#xff1a;调用函数注意事项 要将.mat文件转换成.xlsx格式的Excel文件&#xff0c;并保持文件名一致&#xff0c;你可以使用scipy.io.loadmat来读取.m…

模块整理!YOLOv9中的“Silence”、“RepNCSPELAN4”、“ADown”、“CBLinear”创新模块汇总!

专栏地址&#xff1a;目前售价售价69.9&#xff0c;改进点50 专栏介绍&#xff1a;YOLOv9改进系列 | 包含深度学习最新创新&#xff0c;助力高效涨点&#xff01;&#xff01;&#xff01; 本文对YOLOv9中出现的新模块进行整理 1. Silence模块 模块介绍&#xff1a;Silence是…

DDR5和LPDDR4/5 命令解析

关键名称介绍 DDR5 SDRAM和LPDDR4/5都采用了高级的命令集来支持更高效的内存管理和操作,其中“Multi-purpose command (MPC)”、“Mode Register Read (MRR)”、“Mode Register Write (MRW)”,以及“Write Pattern Command”是几种关键的命令类型,它们在内存初始化、配置和…

笔记2:cifar10数据集获取及pytorch批量处理

&#xff08;1&#xff09;cifar10数据集预处理 CIFAR-10是一个广泛使用的图像数据集&#xff0c;它由10个类别的共60000张32x32彩色图像组成&#xff0c;每个类别有6000张图像。 CIFAR-10官网 以下为CIFAR-10数据集data_batch_*表示训练集数据&#xff0c;test_batch表示测试…

股票退市的最新要求!

五一假期一过&#xff0c;多家上市公司都进入退市名单&#xff0c;不知道有没有您的股票&#xff1f;很多朋友直呼现在炒股越来越难&#xff0c;一步小心就买到了退市个股&#xff0c;加上新改革&#xff0c;我们一起来结合退市政策来了解下怎么挑选个股&#xff1f; 2024年最新…

论文查重率高,有什么办法降重吗?

现在大部分学校已经进入到论文查重降重的阶段了。如果查重率居高不下&#xff0c;延毕的威胁可能就在眼前。对于即将告别校园的学子们&#xff0c;这无疑是个噩梦。四年磨一剑&#xff0c;谁也不想在最后关头功亏一篑。 查重率过高&#xff0c;无非以下两种原因。要么是作为“…

《手把手教你怎么上手做一个小程序》

准备工作&#xff1a; 硬件准备&#xff1a; 装有微信的手机一台。 账号注册&#xff1a; 进入https://mp.weixin.qq.com/cgi-bin/registermidpage?actionindex&langzh_CN&token注册一个微信小程序账号。 然后输入邮箱注册账号。一个邮箱只能注册一个微信公众平台…
最新文章