一个能生成两分钟视频的AI模型，现在免费开源了

2024-04-18 人工智能视频生成开源软件

最近，一个名为StreamingT2V的AI视频生成模型宣布开源。它最引人注目的特点是，能根据一句文字描述，直接生成长达两分钟的视频。对于关注AI发展的普通读者来说，这或许意味着我们离用AI轻松制作短片又近了一步。

StreamingT2V的核心特点

根据发布的信息，这个模型有几个关键优势。首先，也是最重要的一点，是它能够生成长达120秒（1200帧）的视频。这比之前一些知名的模型（如Sora）在时长上有了显著提升。其次，开发者强调其生成的视频质量优秀。最后，它被设计成可以与当前其他主流的视频生成模型协同工作，这增加了它的灵活性和实用性。

模型的技术定位与开放性

我的理解是，StreamingT2V更像是一个“框架”或“增强器”。它本身可以与SVD、AnimateDiff等不同的基础模型结合使用，从而生成更长的视频序列。这种设计思路，让它在开源社区中可能更具吸引力。因为它是完全免费开源的，任何开发者都可以获取代码，进行研究、使用甚至二次开发，这有助于技术的快速传播和迭代。

尝试使用的主要途径

对于想体验的普通用户，目前主要有两种方式。最简单的是通过其提供的在线演示平台进行尝试，不过由于访问人数可能较多，需要排队等待。对于有技术背景的用户，则可以按照公布的指南在本地电脑上搭建环境。这个过程需要安装Python、CUDA等专业工具，并下载模型文件，步骤相对复杂，主要面向开发者和研究人员。

生成视频需要的时间与资源

根据官方提供的测试数据，生成视频所需的时间相当可观，并且取决于视频的长度、清晰度以及所使用的基础模型。例如，要生成一段120秒的高清（720p）视频，即使用上高性能的英伟达A100显卡，也需要大约28到29分钟来生成一个预览版，而要得到最终结果则需要近3个小时。这提醒我们，尽管功能强大，但AI生成高质量长视频仍然是一个计算量巨大的任务。

总结

总体来看，StreamingT2V的开源是AI视频生成领域一个值得关注的进展。它突破了生成长视频的时长限制，并以开放的方式提供给社区。虽然目前要流畅使用它还需要较强的计算资源和技术知识，但它的出现无疑推动了开源视频AI工具的发展。未来，随着技术的优化和普及，我们或许能更便捷地用AI来辅助视频创作。