OpenAI 发布 GPT-5.4：首个原生支持计算机操作的通用模型，超越人类基准

OpenAI 发布 GPT-5.4：首个原生支持计算机操作的通用模型，超越人类基准 - PayForChat

重大更新

OpenAI 于 2026 年 3 月 5 日正式发布 GPT-5.4，这是其最新的前沿模型，现已在 ChatGPT、Codex 和 API 中全面上线。GPT-5.4 将 GPT-5.3-Codex 和 GPT-5.2 的优势整合为单一模型，标志着 AI 能力的又一次重大飞跃。

GPT-5.4 是 OpenAI 首个具有原生计算机使用能力的通用模型。它可以通过截图、鼠标和键盘操作桌面和网页浏览器，在 OSWorld-Verified 基准测试中达到 75% 的任务成功率，超越了 GPT-5.2 的 47.3%，甚至超过了人类基准的 72.4%。

这意味着 GPT-5.4 可以：

在 GDPval 测试中（涵盖 44 个职业的知识工作），GPT-5.4 在 83% 的比较中匹配或超越行业专业人士，而 GPT-5.2 仅为 70.9%。

特别是在以下领域表现突出：

GPT-5.4 是 OpenAI 迄今为止最准确的模型：

GPT-5.4 引入了工具搜索功能，允许模型在需要时动态查找工具定义，而不是在每个请求中预先加载所有工具。在 Scale 的 MCP Atlas 基准测试中，这一功能将总 token 使用量减少了 47%，同时保持相同的准确性。

GPT-5.4 支持最多 100 万 tokens 的上下文，使代理能够在长时间范围内规划、执行和验证任务。标准版本支持 272,000 个输入 tokens。

GPT-5.4 的发布标志着 AI 从对话助手向自主代理的重要转变。原生计算机操作能力的加入，意味着 AI 不再局限于文本交互，而是可以真正地使用软件和工具，这将极大地扩展 AI 在实际工作场景中的应用范围。对于 PayForChat 用户来说，这意味着更强大的自动化能力和更高的工作效率。

GPT-5.4 现已在 ChatGPT、Codex 和 API 中推出：