OpenAI 于 2026 年 3 月 5 日正式发布 GPT-5.4,这是其最新的前沿模型,现已在 ChatGPT、Codex 和 API 中全面上线。GPT-5.4 将 GPT-5.3-Codex 和 GPT-5.2 的优势整合为单一模型,标志着 AI 能力的又一次重大飞跃。
GPT-5.4 是 OpenAI 首个具有原生计算机使用能力的通用模型。它可以通过截图、鼠标和键盘操作桌面和网页浏览器,在 OSWorld-Verified 基准测试中达到 75% 的任务成功率,超越了 GPT-5.2 的 47.3%,甚至超过了人类基准的 72.4%。
这意味着 GPT-5.4 可以:
在 GDPval 测试中(涵盖 44 个职业的知识工作),GPT-5.4 在 83% 的比较中匹配或超越行业专业人士,而 GPT-5.2 仅为 70.9%。
特别是在以下领域表现突出:
GPT-5.4 是 OpenAI 迄今为止最准确的模型:
GPT-5.4 引入了工具搜索功能,允许模型在需要时动态查找工具定义,而不是在每个请求中预先加载所有工具。在 Scale 的 MCP Atlas 基准测试中,这一功能将总 token 使用量减少了 47%,同时保持相同的准确性。
GPT-5.4 支持最多 100 万 tokens 的上下文,使代理能够在长时间范围内规划、执行和验证任务。标准版本支持 272,000 个输入 tokens。
GPT-5.4 的发布标志着 AI 从对话助手向自主代理的重要转变。原生计算机操作能力的加入,意味着 AI 不再局限于文本交互,而是可以真正地使用软件和工具,这将极大地扩展 AI 在实际工作场景中的应用范围。对于 PayForChat 用户来说,这意味着更强大的自动化能力和更高的工作效率。
GPT-5.4 现已在 ChatGPT、Codex 和 API 中推出:
原文链接:OpenAI 官方博客