GPT-5.4：当AI开始“原生操控电脑”

2026-03-07 人工智能 OpenAI GPT-5.4 AI智能体

2026年3月，OpenAI悄然发布了GPT-5.4模型。这次更新的核心，被普遍认为是AI“原生操控电脑”能力的真正落地。我的理解是，这意味着AI不再仅仅停留在对话或内容生成层面，而是开始能够理解并直接操作我们的数字工作环境，这或许标志着AI智能体（Agent）发展的一个关键节点。

核心能力：从“聊天”到“执行”

根据原文描述，GPT-5.4最显著的变化是进入了“执行任务”的阶段。过去的模型更多是“生成内容”或“回答问题”，而新模型则能“真正操控电脑环境”。作者认为，这使它不再是简单的聊天机器人，而是一个“具备完整操作链条的数字执行者”。只要是日常在电脑上能完成的工作，它几乎都能尝试去执行。这种从理解指令到执行操作的能力跨越，构成了此次升级的主线。

性能提升的具体表现

素材中列举了一系列测试数据，展示了GPT-5.4在不同方面的能力进步： * 知识型工作：在GDPval测试中，它在83%的案例中达到持平或更优水平。在投行级电子表格建模和演示文稿制作等具体任务上，表现也优于前代模型。 * 网页与视觉理解：在网页操作测试中成功率提升，同时“仅凭截图观察”完成任务的能力也显著增强。更强的视觉理解和文档解析能力，被认为是其能操控电脑的底层支撑之一。 * 编程与复杂任务：它融合并强化了编程能力，在长任务执行中能够自己调用工具、进行多轮迭代优化，减少了人工干预。在需要调用真实API完成多步骤任务（如处理邮件附件并记录）的测试中，它能以更少的轮次达到更高的准确率。 * 可控性：模型在处理复杂任务时会先给出思路说明，并支持在生成过程中实时追加指令，这对需要精细控制的高阶用户来说更为友好。

与OpenClaw的搭配及获取方式

作者在实测后提出一个观点：GPT-5.4“很可能是目前最适合跑OpenClaw的模型”。OpenClaw是一个以强大智能体能力著称的框架，而GPT-5.4在模型层面实现了原生电脑操控，两者结合被视为一种高效的解决方案。原文详细提供了在OpenClaw中将默认模型切换至GPT-5.4的操作命令流程。

同时，OpenAI也同步推出了Windows版的Codex客户端。这意味着用户无需部署复杂环境，可以直接通过官方客户端来体验GPT-5.4的电脑操控能力。根据素材提示，通过Codex客户端，即使是免费账户也可能使用该模型的核心能力。

一次“形态级进化”的开启

综合来看，GPT-5.4的发布似乎不只是参数的简单增加。它将AI“原生操控电脑”从概念推向了可实测的阶段，并在此基础之上，全面增强了其在知识工作、视觉理解、编程和工具调用等多方面的性能。当这种模型能力与OpenClaw这类执行框架相结合时，或许真的会开始改变我们与电脑交互、处理工作的方式。这或许正如作者所感，是一次“形态级进化”的开始，它让AI智能体变得更加具体和可用。