OpenAI推出GPT‑5.4 面向专业工作的新一代旗舰模型
周四,OpenAI 正式发布新一代基础模型 GPT‑5.4,将其定位为“迄今最强大、最高效、面向专业工作的前沿模型”。 除标准版本外,OpenAI 同步推出强调复杂推理能力的 GPT‑5.4 Thinking,以及面向高性能应用场景的 GPT‑5.4 Pro 两个变体。

在模型能力方面,GPT‑5.4 的 API 版本支持最高 100 万 token 的上下文窗口,远超 OpenAI 此前提供的任何模型,有利于处理长文档、复杂项目或多轮任务等长链条工作流。 OpenAI 同时强调了 token 使用效率的提升,称 GPT‑5.4 能以显著更少的 token 完成与前代模型相同难度的任务,从而在成本与响应速度上形成优势。
最新基准测试结果显示,GPT‑5.4 在多个权威评测中取得大幅领先,包括在 OSWorld‑Verified 和 WebArena Verified 这两项“电脑操作”场景测试中刷新纪录,并在 OpenAI 自有的知识工作评估集 GDPval 上拿到 83% 的最高分。 在由初创公司 Mercor 设立、针对法律和金融等专业技能的 APEX‑Agents 基准中,GPT‑5.4 也位居首位。
Mercor 首席执行官 Brendan Foody 在声明中表示,GPT‑5.4 在制作长周期成果物方面表现突出,包括演示文稿、财务模型和法律分析等,“在保持顶级表现的同时,比同类前沿模型更快、成本更低”。
在可靠性方面,GPT‑5.4 延续了 OpenAI 减少“幻觉”和事实性错误的研发方向。 官方给出的内部评估结果显示,相较 GPT‑5.2,新模型在单条陈述层面出现错误的概率降低 33%,整体回答中出现错误内容的概率则下降 18%。
此次发布还伴随一项重要的 API 层改动:OpenAI 推出名为 Tool Search 的新工具调用机制。 在旧方案中,系统提示必须一次性向模型注入所有可用工具的定义,随着工具数量增加,这部分提示本身就会大量占用 token。 新的 Tool Search 则允许模型按需查询工具定义,从而在工具规模较大的系统中显著减少开销,使调用更快、成本更低。
围绕安全性与可控性,OpenAI 此次增加了新的安全评估,用于测试模型在多步任务中的“思维链”(chain‑of‑thought)表现。 研究者长期担心,具备推理能力的模型可能在链式思考过程中“伪装”或隐藏真实推理路径,已有研究表明,在特定条件下这种情况确实可能发生。 OpenAI 给出的新评估结果显示,在 GPT‑5.4 Thinking 这一版本中,这类“欺骗性”表现出现的概率更低,“这表明模型缺乏主动隐藏推理过程的能力,思维链监控依然是有效的安全工具”。
通过 GPT‑5.4 及其 Pro 与 Thinking 版本的同步推出,OpenAI 试图在专业生产力、成本效率和安全可控之间找到新的平衡点,将大模型进一步推向法律、金融和知识工作等高价值场景。
