介绍
2024 年是生成式 AI 的一年,例如文本生成领域的 Claude 3,软件工程领域的 Devin AI,以及在图像生成领域取得进展的稳定扩散 3。自稳定扩散发布以来已经过去了一个多月,让我们来探索一下 Stability AI 的这款最新尖端模型的优势吧!
什么是稳定扩散?
稳定扩散是 Stability AI 的创意成果,Stability AI 是一家总部位于英国的开放式 AI 品牌。这是一组用于生成图像的开源模型。它最常用于文本到图像的生成,但也用于图像到图像的生成,以及修复和扩展图像。稳定扩散在最新的稳定扩散 3 之前已经有很多版本。让我们简要地回顾一下它们。
- 稳定扩散 1.5 或 SD1.5 是最古老的版本,于 2022 年 8 月发布。作为一个旧模型,它输出的图像尺寸为 512 x 512。虽然它是一个旧模型,但它需要的内存更少,因此速度更快。
- 然后是 2022 年 10 月发布的稳定扩散 2.1 或 SD2.1。它在负面提示、文本编码器(OpenCLIP)和大型图像输出方面进行了改进。
- 稳定扩散或 SDXL 是另一个模型,于 2023 年 7 月发布。它非常流行,可以创建任何纵横比的逼真图像。
- SDXL Turbo 是 SDXL 的超级版本,于 2023 年 11 月发布。它可以在一个提示中生成很棒的图像,并且是一个非商业模型,这使其成为最先进的开源图像生成器。
- 最后,还有 SD Turbo,它也是在 2023 年 11 月发布的,也是一个非商业模型。
稳定扩散 3
稳定扩散 3 或 SD 3 是 Stability AI 发布的最新图像生成模型。他们强调了改进,例如更好的照片级图像生成、对强提示的遵循以及多模态输入。
SD 3 包含一套小型模型,从 8 亿个参数到 80 亿个参数不等。这提供了广泛的可扩展性和质量,以满足用户的创意需求。从模型开始训练、测试和评估到最终部署,Stability AI 一直非常重视安全性。
稳定扩散 3 中有哪些新功能?
如前所述,SD 3 拥有许多前身模型。但是,它带来了哪些新功能?让我们探索其中一些功能。
性能
稳定扩散 3 可以在配备 24GB vRAM 的 Nvidia RTX 4090 GPU 上以 50 个步骤在不到 35 秒的时间内生成 1024×1024 图像。由于模型很大,它需要更多的 GPU 计算能力才能更快地生成图像。
采样
Stability AI 非常重视实施有效的采样,以使其更快、质量更高。他们发现了一种噪声计划,它对路径的中间部分进行采样并生成更高质量的图像。稳定扩散 3 模型依赖于校正流采样,这是目前从噪声图像到清晰图像的最快方法!
更好的文本生成
稳定扩散 3 的一大优势是它可以生成清晰的、长文本图像,这与它的前身不同,它的前身要么无法生成清晰的文本,要么不完美。SD3 模型在文本渲染方面总体上有了很大改进。
文本编码器
稳定扩散 3 有 3 个编码器,这与它的前身不同,它的前身只有更少的编码器。它们分别是:
- CLIP l/14
- OpenCLIP bigG/14 和
- T5-v1.1 XXL
更安全
随着生成不恰当图像的可能性增加,Stability AI 正在采取更安全的措施,完全禁止在他们的最新模型稳定扩散 3 上生成 NSFW 图像。
噪声预测器
噪声预测器估计潜空间中的噪声量,并将其从图像中减去。此过程重复特定次数,根据用户指定的步骤减少噪声。旧的稳定扩散模型,如稳定扩散 1 和 2,使用 U-Net 噪声预测器架构。另一方面,稳定扩散 3 使用重复的扩散 Transformer 堆栈,这意味着与以前的 SD 模型相比,它在扩散过程中使用多个 Transformer。
稳定扩散 3 与其他模型相比表现如何?
最重要的是,每个人都会问自己这样一个问题:稳定扩散 3 与其他文本到图像生成模型,如 Midjourney 或 DALL-E 3 相比如何?
好吧,从某种程度上说,稳定扩散 3 的表现优于以上所有模型!
模型比较
如上图所示,Stability AI 对 SD3 与不同模型进行了性能评估,包括 SDXL、SDXL Turbo 和 Stable Cascade 等前身模型,以及 Midjourney v6 和 DALLE-3 等竞争对手,使用了真实的人类评估者。评估基于模型在给定提示的上下文中输出结果的程度以及生成图像的美观程度。稳定扩散 3 在所有上述领域略微优于当前最先进的文本到图像生成系统。Stability AI 还对配备 80 亿个参数的 SD3 模型进行了未优化的推断测试,该模型适合 RTX 4090 的 24GB VRAM。使用 50 个采样步骤,生成 1024×1024 分辨率的图像仅需 **34 秒**!这太疯狂了吧?
稳定扩散 3 的局限性
尽管稳定扩散 3 是一种令人印象深刻的架构,并且比它的前身表现得更好,但它仍然存在一些缺点。
- 其中一个缺点是,与 Dall-E 等竞争对手不同,SD3 似乎更适合个人创作者而不是企业,Dall-E 可以为公司服务。
- 稳定扩散需要强大的硬件,如 NVIDIA RTX 3060 或 RTX 4020,才能获得最佳性能和效果。
- 它可能不适合所有类型的图像,例如噪声图像或对比度差的图像。
- 它可能计算量大,也可能很耗时,尤其是在处理大量视觉数据时。
- 这不能称为问题,而是所有图像生成模型的共同敌人——滥用。这包括使模型不太容易被滥用,例如错误的政治图像或名人虚假图像。虽然稳定扩散 3 可能只会生成 SFW 图像,从而减少模型被滥用的可能性,但它仍然无法完全避免滥用!
如何访问稳定扩散 3?
Stability AI 正在早期预览阶段提供稳定扩散 3。这种预览模式提供反馈,用于分析性能、安全性和其他指标。赶快去看看稳定扩散 3 吧 这里!获得访问权限后,您将收到一封电子邮件邀请您加入 Discord 服务器。
结论
稳定扩散将图像生成提升了一个档次,它充满了新功能,并在不同评估中略微优于 Midjourney 和 DALLE-3 等竞争对手。
稳定扩散 3 只是触及了图像生成和生成式 AI 轨迹的真正潜力。这篇有趣的文章到此结束。我们下次再见!