GPT-5.4:当AI开始“原生操控电脑”
2026年3月,OpenAI悄然发布了GPT-5.4模型。这次更新的核心,被普遍认为是AI“原生操控电脑”能力的真正落地。我的理解是,这意味着AI不再仅仅停留在对话或内容生成层面,而是开始能够理解并直接操作我们的数字工作环境,这或许标志着AI智能体(Agent)发展的一个关键节点。
核心能力:从“聊天”到“执行”
根据原文描述,GPT-5.4最显著的变化是进入了“执行任务”的阶段。过去的模型更多是“生成内容”或“回答问题”,而新模型则能“真正操控电脑环境”。作者认为,这使它不再是简单的聊天机器人,而是一个“具备完整操作链条的数字执行者”。只要是日常在电脑上能完成的工作,它几乎都能尝试去执行。这种从理解指令到执行操作的能力跨越,构成了此次升级的主线。
性能提升的具体表现
素材中列举了一系列测试数据,展示了GPT-5.4在不同方面的能力进步: * 知识型工作:在GDPval测试中,它在83%的案例中达到持平或更优水平。在投行级电子表格建模和演示文稿制作等具体任务上,表现也优于前代模型。 * 网页与视觉理解:在网页操作测试中成功率提升,同时“仅凭截图观察”完成任务的能力也显著增强。更强的视觉理解和文档解析能力,被认为是其能操控电脑的底层支撑之一。 * 编程与复杂任务:它融合并强化了编程能力,在长任务执行中能够自己调用工具、进行多轮迭代优化,减少了人工干预。在需要调用真实API完成多步骤任务(如处理邮件附件并记录)的测试中,它能以更少的轮次达到更高的准确率。 * 可控性:模型在处理复杂任务时会先给出思路说明,并支持在生成过程中实时追加指令,这对需要精细控制的高阶用户来说更为友好。
与OpenClaw的搭配及获取方式
作者在实测后提出一个观点:GPT-5.4“很可能是目前最适合跑OpenClaw的模型”。OpenClaw是一个以强大智能体能力著称的框架,而GPT-5.4在模型层面实现了原生电脑操控,两者结合被视为一种高效的解决方案。原文详细提供了在OpenClaw中将默认模型切换至GPT-5.4的操作命令流程。
同时,OpenAI也同步推出了Windows版的Codex客户端。这意味着用户无需部署复杂环境,可以直接通过官方客户端来体验GPT-5.4的电脑操控能力。根据素材提示,通过Codex客户端,即使是免费账户也可能使用该模型的核心能力。
一次“形态级进化”的开启
综合来看,GPT-5.4的发布似乎不只是参数的简单增加。它将AI“原生操控电脑”从概念推向了可实测的阶段,并在此基础之上,全面增强了其在知识工作、视觉理解、编程和工具调用等多方面的性能。当这种模型能力与OpenClaw这类执行框架相结合时,或许真的会开始改变我们与电脑交互、处理工作的方式。这或许正如作者所感,是一次“形态级进化”的开始,它让AI智能体变得更加具体和可用。