ChatGPT 的参数规模可能比想象中小

2024-03-18 ChatGPT 参数规模模型推断 AI透明度

最近，一项来自学术界的分析引起了人们对ChatGPT真实技术规格的关注。南加州大学的研究人员通过一种技术方法，推测出当前广泛使用的gpt-3.5-turbo模型的参数规模可能远低于此前的普遍传闻。这让我们有机会重新审视大模型的能力究竟从何而来，以及技术透明度的价值。

一个出乎意料的推测结果

根据南加州大学研究团队的发现，OpenAI的gpt-3.5-turbo模型的参数规模可能仅为70亿（7B）左右。这个数字与之前流传的数百亿甚至上千亿参数的说法形成了巨大反差。研究团队并非通过内部泄露，而是利用了一种名为“Softmax瓶颈”的攻击方法，从模型的公开API输出中逆向推断出了这一结果。

揭秘背后的技术原理

那么，研究人员是如何做到的呢？关键在于理解现代语言模型的一个普遍特性。我的理解是，模型在最终输出前，会生成一个“特征向量”。这个向量的维度大小，与模型的整体参数规模存在强关联。研究团队发现，只要从API收集足够多的输出样本，就能拼凑并推断出这个特征向量的维度。对于gpt-3.5-turbo，他们采集了4000多个样本就完成了分析，成本不到1000美元。这就像是“根据一个人穿出去的有限几套衣服，来推测他衣柜的大致容量”。

对传闻与现实的重新审视

这一发现自然引发了一系列疑问。此前，包括微软论文中曾意外提及的200亿参数等信息，与7B的推测结果相去甚远。这让人猜测，最初的参数数据是否属于误传，或者OpenAI是否对模型进行了大幅度的压缩优化。无论真相如何，这都表明，模型的强大性能未必完全依赖于庞大的参数数量，高效的架构与优化同样至关重要。

此次分析带来的影响

南加大团队认为，这种攻击方法的破坏性有限，因为它并不能直接窃取模型的具体参数。相反，它可能带来一些积极影响。例如，API用户可以借此检测服务商是否对模型进行了未声明的更新，从而建立更强的信任。这或许能促使大模型公司提供更高的透明度，推动行业向更开放、更可靠的方向发展。

尚未结束的讨论

截至目前，OpenAI尚未对此研究结果做出公开回应。未来，他们是否会调整API以应对此类分析，或者选择公开模型的真实配置，仍然是个未知数。这一事件提醒我们，在人工智能快速发展的浪潮中，技术细节的透明度与模型的实际效能，都是值得持续关注的核心议题。