Stability AI 开源音乐生成工具：Stable Audio Open

2024-08-20 人工智能 AIGC 开源工具

AI生成内容的热潮正从图像、视频蔓延至音频领域。最近，Stability AI公司低调发布了一款名为Stable Audio Open的开源工具，它允许用户通过文字描述来生成各类音频。这为普通创作者和开发者提供了一个新的、可自由探索的声音创作可能性。

工具的核心功能

根据原文介绍，Stable Audio Open的核心功能是“用文字就能生成各种音频”。这意味着用户只需输入一段描述性的文字，比如“轻快的电子鼓点”或“宁静的森林环境音”，模型就能尝试生成对应的音频片段。它特别强调能够生成鼓点、旋律和环境音效，并且提到了一个潜在的重要应用场景：为AI生成的视频（如Sora和可灵）制作配音，这或许能提升视频内容的整体性和沉浸感。

三种主要的使用方式

原文详细列举了三种使用Stable Audio Open的途径，以适应不同用户的技术背景和需求。最简单的方式是直接访问其官方在线生成页面，无需任何本地部署。对于希望离线使用或进行更多自定义操作的用户，则提供了本地安装的方案，其中又分为适合新手的“一键安装包”和需要手动操作的完整安装流程。手动安装步骤涵盖了从克隆代码库、创建Python虚拟环境到安装依赖包的完整过程，并针对Windows系统用户给出了确保GPU加速的额外指引。

本地部署与配置要点

如果选择手动安装并在本地运行，用户需要关注几个关键步骤。首先是通过命令行完成代码获取和环境搭建。其次，工具的运行依赖于一个名为config.json的配置文件，用户需要在这里指定模型文件和生成结果的存放目录。最后，通过运行一个Gradio图形界面来实际使用工具。这个界面允许用户输入文字提示、调整一些生成参数（如节拍和时长），并能够动态切换不同的预训练模型。生成的结果会同时保存为音频文件（.wav）和MIDI文件，后者可能便于进一步的音乐编辑。

对开源与易用性的观察

我的理解是，Stability AI此次发布延续了其一贯的开源策略，将音乐生成的能力开放给社区。从提供的多种使用方式来看，项目团队在努力平衡功能的强大性与使用的便捷性。在线版本降低了门槛，而本地部署则为技术爱好者提供了深度定制和集成开发的可能性。不过，从“效果没有第3种好”的提示来看，不同使用方式在生成质量上可能存在差异，用户需要根据自己的设备和需求进行权衡。

总体而言，Stable Audio Open的出现为AI音乐生成领域增添了一个值得关注的开源选择。它让更多人能够以较低的成本体验和实验文字生成音频的技术，虽然其实际效果和易用性仍有待用户亲自验证，但这种开放探索的方向本身，就为创意工具的普及和发展注入了新的活力。