Open Chat Video Editor：一个结合AI的短视频生成工具

2024-09-09 AI视频生成开源工具 ChatGPT Stable Diffusion

如果你对制作短视频感兴趣，但又觉得剪辑软件复杂、找素材麻烦，那么最近出现的一些AI工具或许能帮上忙。Open Chat Video Editor就是这样一个开源项目，它尝试将ChatGPT、Stable Diffusion等AI模型结合起来，让用户通过简单的文本或网页链接，就能自动生成一段短视频。我的理解是，它更像是一个自动化的“视频脚本生成与配图”工具，旨在降低视频创作的技术门槛。

工具的核心功能

根据介绍，这个工具主要提供了三种视频生成模式，它们都围绕着一个核心理念：将文字内容自动转化为视频。

第一种是“短句转短视频”。你只需要输入一个简单的主题，比如“小孩子养宠物”，工具背后的AI（如ChatGPT）就会自动扩展出一段详细的描述性文案。然后，系统会根据这段文案，去匹配或生成相应的画面，最终合成一个短视频。

第二种是“网页转短视频”。你可以输入一个网页链接，例如维基百科的某个词条页面。工具会自动解析网页内容，将其摘要成一段适合视频的文案，再同样地配上画面，生成介绍该主题的短视频。

第三种“长视频转短视频”功能，在提供的素材中显示为“即将发布”，目前尚未开放。

技术实现方式

这个工具并非单一技术，而是整合了多种AI能力。在文字处理层面，它主要依赖类似ChatGPT的大语言模型来生成或总结视频文案。

在视觉内容生成上，它提供了几种不同的路径供用户选择，这也是其技术框架的关键。一种方式是“图像检索”，即从已有的图库中搜索与文案匹配的图片来制作视频。另一种是“图像生成”，直接利用Stable Diffusion这类文生图模型，根据文案创造出全新的画面。此外，还有将两者结合的“先检索再生成”模式，以及直接使用现有视频片段的“视频检索”模式。不同的模式在创意性和对硬件的要求上会有所区别。

安装与使用门槛

需要明确的是，这是一个需要自行部署的开源项目，主要面向有一定技术背景的开发者或爱好者。项目提供了Docker、Linux和Windows三种安装方式，但过程并不简单，涉及Python环境配置、依赖库安装、模型数据下载等步骤。

例如，在Linux系统上，除了配置Conda环境，还需要手动编译安装ImageMagick等图像处理库。无论哪种方式，用户都需要在配置文件中填入自己的ChatGPT API密钥，并下载一个包含数据索引的文件包。这些都意味着使用者需要准备好相应的开发环境和计算资源（支持GPU会更佳），并可能花费一些时间进行调试。

总结与现状

总的来说，Open Chat Video Editor展示了一种有趣的思路：通过串联多个成熟的AI模型，自动化完成从文案到视频的创作流程。它更像是一个技术原型或实验性项目，为有兴趣的开发者提供了一个可探索的起点。

不过，从现有素材来看，该项目似乎仍处于早期阶段。例如，其“长视频转短视频”功能尚未推出，且在安装说明中特别提到，目前暂不支持中文字幕的显示，需要用户手动修改配置文件。对于普通用户而言，直接使用还存在较高的技术门槛。但它的出现，或许预示着未来视频创作工具会更加智能化和自动化的发展方向。