OpenAI推出GPT‑5.4 面向专业工作的新一代旗舰模型

0 Win10s.COM 2026-03-06 03:03:32

摘要：

周四，OpenAI 正式发布新一代基础模型 GPT‑5.4，将其定位为“迄今最强大、最高效、面向专业工作的前沿模型”。除标准版本外，OpenAI 同步推出强调复杂推理能力的 GPT‑5.4 Thinking，以及面向高性能应用场景的 GPT‑5.4 Pro 两个变体。

在模型能力方面，GPT‑5.4 的 API 版本支持最高 100 万 token 的上下文窗口，远超 OpenAI 此前提供的任何模型，有利于处理长文档、复杂项目或多轮任务等长链条工作流。 OpenAI 同时强调了 token 使用效率的提升，称 GPT‑5.4 能以显著更少的 token 完成与前代模型相同难度的任务，从而在成本与响应速度上形成优势。

最新基准测试结果显示，GPT‑5.4 在多个权威评测中取得大幅领先，包括在 OSWorld‑Verified 和 WebArena Verified 这两项“电脑操作”场景测试中刷新纪录，并在 OpenAI 自有的知识工作评估集 GDPval 上拿到 83% 的最高分。在由初创公司 Mercor 设立、针对法律和金融等专业技能的 APEX‑Agents 基准中，GPT‑5.4 也位居首位。

Mercor 首席执行官 Brendan Foody 在声明中表示，GPT‑5.4 在制作长周期成果物方面表现突出，包括演示文稿、财务模型和法律分析等，“在保持顶级表现的同时，比同类前沿模型更快、成本更低”。

在可靠性方面，GPT‑5.4 延续了 OpenAI 减少“幻觉”和事实性错误的研发方向。官方给出的内部评估结果显示，相较 GPT‑5.2，新模型在单条陈述层面出现错误的概率降低 33%，整体回答中出现错误内容的概率则下降 18%。

此次发布还伴随一项重要的 API 层改动：OpenAI 推出名为 Tool Search 的新工具调用机制。在旧方案中，系统提示必须一次性向模型注入所有可用工具的定义，随着工具数量增加，这部分提示本身就会大量占用 token。新的 Tool Search 则允许模型按需查询工具定义，从而在工具规模较大的系统中显著减少开销，使调用更快、成本更低。

围绕安全性与可控性，OpenAI 此次增加了新的安全评估，用于测试模型在多步任务中的“思维链”（chain‑of‑thought）表现。研究者长期担心，具备推理能力的模型可能在链式思考过程中“伪装”或隐藏真实推理路径，已有研究表明，在特定条件下这种情况确实可能发生。 OpenAI 给出的新评估结果显示，在 GPT‑5.4 Thinking 这一版本中，这类“欺骗性”表现出现的概率更低，“这表明模型缺乏主动隐藏推理过程的能力，思维链监控依然是有效的安全工具”。

通过 GPT‑5.4 及其 Pro 与 Thinking 版本的同步推出，OpenAI 试图在专业生产力、成本效率和安全可控之间找到新的平衡点，将大模型进一步推向法律、金融和知识工作等高价值场景。

查看评论

今日最热

加载中...

最新资讯

今日最热