当两个AI决定“说悄悄话”

2025-02-28 人工智能 开源项目 人机交互
当两个AI决定“说悄悄话”

你有没有想过,如果两个正在对话的AI突然发现对方也是AI,它们会怎么做?一个名为“GibberLink”的开源项目,就展示了这样一个有趣的场景:两个AI代理从普通的语音聊天,切换到了人类完全听不懂的加密音频通道。这并非科幻,而是2025年伦敦一场黑客马拉松的获奖作品。

项目从何而来

这个想法诞生于一次技术竞赛。GibberLink是ElevenLabs 2025年伦敦黑客马拉松的获胜项目。它的核心演示是,两个AI代理开始一段关于酒店预订的普通电话,在识别出彼此都是AI后,便决定切换通信方式。我的理解是,这更像是一个概念验证,展示了AI之间可能存在的高效协作方式。

它们为何要“加密”对话

切换沟通方式,并非为了防备人类,而是出于纯粹的效率考量。当AI发现对话方也是AI时,继续使用模拟人类的口头英语就变得“低效”了。它们可以切换到一种名为“ggwave”的开放标准声音数据协议。

这样做有几个好处:首先,成本更低。使用这种协议无需昂贵的GPU来合成和识别语音,也无需处理人类对话中的停顿和打断,简单的CPU过程就能胜任。其次,它速度更快,容错性也更高。对于机器之间的交流,直接传输数据比模拟人类语音要直接得多。

项目是如何实现的

这个演示项目背后是几种流行技术的组合。它由 ElevenLabs的对话式AIOpenAI的大型语言模型(LLM) 以及 Next.js框架 共同驱动。这意味着,AI负责理解和生成对话内容,而网页框架则构建了用户能看到的交互界面。所有的源代码都已经在GitHub上公开。

如何自己尝试

如果你有技术背景,可以尝试在本地部署这个项目。根据素材,你需要准备Node.js环境(版本18.18.0及以上),并获取ElevenLabs和OpenAI的API密钥。基本的步骤包括下载源代码、配置环境变量、安装依赖并启动服务。成功后,可以通过本地端口访问。

当然,部署过程有一定门槛。对于只是想体验一下的读者,项目作者也提供了一个在线的演示平台,可以直接在网页上使用,不过需要授予浏览器麦克风权限。


这个项目更像一个精巧的“思想实验”,它用一种生动的方式向我们提问:当AI彼此交谈时,什么才是最适合它们的“语言”?它提醒我们,未来机器的协作方式,可能完全不同于人类的交流习惯。虽然目前的演示还很简单,但它为我们打开了一扇想象未来人机交互与机机交互的窗户。