扩散模型家族再添一员最新 Cold Diffusion 不再依赖高斯噪声_行业新闻

首页 > 新闻中心 > 行业新闻

产品展示

新闻中心

填料

扩散模型家族再添一员最新 Cold Diffusion 不再依赖高斯噪声

作者：行业新闻发布时间：2024-10-08 21:20:50

　　最近，Stability.Ai 公开发布了其文本生成图像模型 Stable Diffusion 的最新版本，网友们的新一波图像创作热潮又开始了~

　　前特斯拉 AI 总监 Andrej Karpathy 评论说：这是人类创造力具有历史意义的一天，如此丰富的人类视觉创造力集中体现到了一个人人可触及的产品中。

　　从生成图像的效果来看，Stable Diffusion 已经是当前最好的模型之一，而它背后的扩散模型（Diffusion Model）最近也非常关注，显示出要取代 GAN 模型的势头。

　　其实，自从 2015 年扩散模型首次被提出以来，该领域本身已经有非常多的研究，研究人员也提出不少变体。而日前，来自马里兰大学和纽约大学的团队提出了近来最新的一种扩散模型：Cold Diffusion。

　　目前业界出现的扩散模型变体层出不穷，但它们都有一个不变的核心：都是围绕随机噪声去除这个概念建立的。

　　扩散模型的本质，以及目前我们对扩散模型的理解，都与高斯噪声在训练和生成过程中所起的作用高度相关。我们大家可以将「扩散」理解为使用 Langevin 动力学围绕图像密度函数的随机移动，扩散的每一步都需要高斯噪声。扩散始于「高温」状态（即噪音很大的状态），然后逐渐降温到基本上没有噪音的「冷」状态。

　　在这篇论文中，作者不再将扩散模型局限于「依赖高斯噪声而建立」，而是提出了围绕模糊（blurring）、下采样（downsampling）等任意图像变换方式建立的广义扩散模型。由于不再有原先的「高温」状态，这种全新广义扩散模型也就被称作为 Cold Diffusion。

　　过去标准的扩散模型有两步工作流程：首先，用图像退化算子（image degradation operator）使得图像受到高斯噪声的污染，其次用一个训练好的恢复算子（restoration operator）对图像进行去噪，逆转退化，从而得到一张新图像。

　　Cold Diffusion 继承了这两步工作流程，但又对之进行了升华式的修改。如下图所示，在图像退化再到逆转退化的过程中，Cold Diffusion 研究团队尝试了使用噪声、模糊、变形（Animorph）、遮罩（mask）、像素化（pixelate）、雪花等变换方式，且都得到了不错的效果。

　　图注：Cold Diffusion 使用不相同图像变换方式得到新图像的工作流程

　　对以往标准的扩散模型来说，其执行图像变换的前向过程，是由图像退化算子 D 来对图像添加高斯噪声。添加0次时，D 应满足：

　　而在 Cold Diffusion 的模型设计中，D 可拿来执行其他各种图像变换方式，如模糊、变形、像素化、雪花等，其退化程度取决于t ——Cold Diffusion 的「升级」正体现在能够直接进行包括噪音在内的多种图像变换。

　　在有了图像退化算子 D 和恢复算子 R 后，就可以借用扩散模型的标准方法对算子进行串联使用，以此来实现退化运算-逆转退化的工作流程。如果退化运算的次数 t 比较小（t ≈ 0），对 R 进行一次应用就能够获得一幅恢复后的新图像。

　　由于R通常只经过了一个简单的凸损失训练，当执行退化运算的次数 t 很大时，生成的结果会很模糊。对此，作者团队提出一个改进的 Cold Diffusion 采样算法来生成高质量图像。

　　这篇研究的重点就在于，作者观察到，扩散模型的图像生成并不完全依赖于高斯噪声，我们也可以再一次进行选择其他图像变换方式来生成新图像。通过改变图像变换方式，还可以构建出整个生成模型家族。

　　基于噪声的扩散模型中的前向扩散过程（即退化运算这一步）的优点是，在最后一步 T 处的退化图像分布只是一个各向同性的高斯分布。因此，我们大家可以首先从各向同性高斯分布中抽取样本，然后通过反向扩散顺序对其进行去噪来执行（无条件）生成。而选择模糊这种退化运算时，完全退化的图像不能形成我们大家可以抽样的良好封闭式分布，但是能形成一个足够简单的分布，可以用简单的办法来进行建模。

　　对于次数足够大的 T，每个图像 x0 都会降级为一个常数 xT（即每个像素都是相同的颜色）。该常数值恰好是 RGB 图像 x0 的通道平均值，可以表示为三维向量，并使用高斯混合模型 (Gaussian mixture model， GMM) 表示。通过对该 GMM 进行采样，可以产生高度模糊图像的随机像素值，然后使用 cold diffusion 就能够直接进行去模糊化，从而创建新图像。

　　另外，像素之间的对称性会导致生成的图像缺乏多样性，为了打破同一管道像素的对称性，作者向每个采样的 xT 添加少量高斯噪声，这个简单的技巧极大地提高了生成图像的丰富性。

　　最后团队进一步证明，除了模糊方式以外，cold diffusion 还可以扩展到其他变换，如修复、超分辨率和变形（animorphosis）方式上，且生成的图像效果也都很好：

　　图注：cold diffusion 的生成图像。第一行使用变形方式变换，第二行使用修复方式变换，第三行使用超分辨率变换方式。

　　在训练和测试期间不需要高斯噪声的 cold diffusion，突破了人们对扩散模型的原有理解，为新型生成模型打开了未来的大门。

　　这项研究因为提出了一种不同于传统形式的扩散模型，而在近日登上了许多论文排行榜的热门，同样引起了热议的，还有论文其中一位作者在推特上发起的讨论：为什么扩散模型如此迅速地取代了 GAN？

　　马里兰大学副教授 Tom Goldstein 解释，扩散模型的优点是它可最小化凸回归损失，所以 OpenAI 在开发 DALLE 时直接抛弃了 GAN，而使用扩散模型来解决不稳定的鞍点问题（saddle point problem）。

　　而且，他认为，扩散模型的成功是新数学范式发挥其作用的一个例子，世界上所有的超参数调整都比不过几行深思熟虑的数学公式。

　　要说今天的文本生成图像领域已经由扩散模型统治或许还不够严谨，但 GAN 的一家独大的确慢慢的变成了历史。归根结底，谁的图像生成质量和稳定能力更好，谁才在越来越卷的生成模型界成为宠儿。这项工作提出的 Cold Diffusion，或许就会在不久之后为我们大家带来一个新的、强大的文本生成图像模型。

　　AI芯片公司知合计算完成数亿元融资；大乌龙！高盛误判ChatGPT流量下滑引发市场恐慌丨AI情报局

　　智元机器人、穹彻智能获新一轮融资，数亿热钱涌入具身智能；xAI 模型将授权特斯拉并分享其收入？马斯克回应丨AI情报局

　　端侧ChatGPT时刻！这家清华系大模型公司赶在OpenAI、苹果之前

　　DeepMind 危，OpenAI 押注成立六个月 AI 药物发现公司；四川具身人形机器人科技公司成立，彭倍教授牵头丨AI情报局

　　清华系人形机器人公司「加速进化」获亿元融资；AI 数字人赛道最大笔投资披露；GPT-4o 实时音频项目负责人离职创业丨AI情报局

　　Yoshua Bengio、姚期智、张亚勤：AI安全是“全球公共产品”，全球合作刻不容缓

　　讲座预约 AI4S 的前世今生：大语言模型与提示学习在科学技术研发中的应用与潜力丨GAIR Live

　　密苏里大学许东：大模型时代，Prompt 为生物信息学研究带来新动力丨IJAIRR

　　对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

　　新加坡国立大学赖载兴教授专访：用混沌边缘改善神经网络，与上帝掷骰子 IJAIRR

专注于填料、曝气器的生产销售

全国咨询热线

产品展示

新闻中心

填料

扩散模型家族再添一员最新 Cold Diffusion 不再依赖高斯噪声

相关资讯

智能养老体系建设六大问题

有啥问题直接问！太原热力集团发布分区服务电话

煤气爆破致女子全身60%烧伤孩子被炸飞2米远

民生工程有力度百姓幸福有温度

共筑坚固防线联塑织密防汛防涝安全网守护每一刻安宁

中国生活污水净化处理行业市场运营态势及未来趋势研判分析

反超美的与海尔！米家打造年轻人第一套卫浴方案究竟有多少惊喜

曝气喷泉正式敞开