Stable Diffusion 3.5 发布：更强的图像生成模型来了

2024-10-23 Stable Diffusion AI绘画开源模型图像生成

如果你对AI绘画有所关注，那么“Stable Diffusion”这个名字一定不陌生。最近，这个知名开源图像生成模型迎来了它的新版本——Stable Diffusion 3.5。根据发布信息，这被称作是迄今为止“最强的模型”。它包含多个版本，对普通用户和开发者来说，意味着更多的选择和更高的可及性。

模型版本与核心特点

这次发布的 Stable Diffusion 3.5 并非单一模型，而是一个包含不同规格的系列。目前已经公开的有两个版本：Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo。此外，还有一个 Stable Diffusion 3.5 Medium 模型计划在几天后发布。

这些模型的核心特点在于其高度的可定制性和对消费级硬件的友好支持。更重要的是，它们遵循宽松的开源许可，无论是个人创作还是商业用途，都可以免费使用。我的理解是，这延续了Stable Diffusion系列降低AI绘画门槛的初衷，让更多人能够利用先进的生成技术。

不同版本如何选择

面对不同的型号，用户该如何选择呢？这主要取决于你的硬件条件和使用需求。

Stable Diffusion 3.5 Large 被描述为基础型号，拥有80亿参数，是系列中“最强大的型号”。它适合追求最高图像质量的用户，官方推荐用于百万像素分辨率的专业场景，但相应地，它对显存要求也更高，推荐16GB以上。
Stable Diffusion 3.5 Large Turbo 可以看作是前者的“精简版”或加速版。它的特点是生成速度极快，据称仅需4步就能产出高质量图像，对硬件的需求也更低，推荐8GB以上显存即可。
即将发布的 Stable Diffusion 3.5 Medium 则定位在易用性和质量的平衡点。它参数更少（25亿），采用了新的架构，目标是能在消费级硬件上“开箱即用”，生成分辨率在25万到200万像素之间的图像。

如何开始使用

对于想要尝鲜的用户，主要的获取和运行方式已经比较明确。模型可以从Hugging Face平台下载。同时，流行的图形化界面工具ComfyUI已经提供了对Stable Diffusion 3.5的支持。

使用流程大致是：先更新ComfyUI到最新版本，然后将下载的模型文件放入指定文件夹，并配置好必要的文本编码器文件，最后载入官方提供的工作流程文件即可开始生成。文中还提到了针对内存（RAM）不足用户的解决方案，例如使用特定的低内存优化版模型文件。

模型的主要优势

根据发布材料，Stable Diffusion 3.5 的优势集中在几个方面。首先是可定制性，用户可以相对容易地对模型进行微调，以适应特定的创作风格或集成到自己的应用流程中。其次是高效性能，特别是Medium和Large Turbo版本，对普通电脑硬件比较友好。最后是生成内容的多样性，模型在生成不同人种、特征的人物图像方面有所加强，减少了用户需要通过复杂提示词来调整的需求。

结语

总的来说，Stable Diffusion 3.5 的发布为开源AI图像生成领域带来了更强大的工具选项。通过提供从高性能到高效率的不同型号，它试图同时满足专业创作者和普通爱好者的需求。虽然我们目前只能依据官方发布的信息来了解它，但可以预见，随着更多用户的实际测试和应用，它的潜力将会被进一步挖掘。