
gpt-4.1
API介绍
GPT‑4.1 是 OpenAI 最新一代通用大模型,在代码能力、指令跟随和长上下文理解等方面相较 GPT‑4o 有大幅提升,并将知识截止更新到 2024 年 6 月。该系列包括 GPT‑4.1、GPT‑4.1 mini 和 GPT‑4.1 nano,三者均支持最高 100 万 token 的上下文窗口,能够在超长代码库和多文档场景中稳定检索和综合信息,在法律、金融、客服等需要“读厚文档”的领域表现突出。
在编码方面,GPT‑4.1 在 SWE‑bench Verified 上完成率达到 54.6%,相比 GPT‑4o 提升 21.4 个百分点,并在 Aider 多语言 diff 基准上显著领先,能更可靠地生成精确的增量修改而非重写整文件,减少无关改动。实测中,它在前端页面生成和工具调用效率上也更优,被 Windsurf、Qodo 等开发工具证明可明显提高一次通过率和代码审查质量。
在指令跟随上,GPT‑4.1 在 Scale MultiChallenge 基准上比 GPT‑4o 提升 10.5 个百分点,在 IFEval 等评测中也有明显优势,对格式约束、负向指令、多步有序操作以及“不会就说不知道”的要求执行更可靠,多轮对话中保持上下文一致性更强。
得益于全系列 1M 上下文和长程注意力训练,GPT‑4.1 不仅能稳定完成“needle in a haystack”检索,还在 OpenAI‑MRCR 与 Graphwalks 等多跳推理评测中显著优于 GPT‑4o,可在多篇长文之间建立复杂关联。
在多模态方面,GPT‑4.1 家族的图像理解能力大幅提升,在 Video‑MME 长视频无字幕任务上取得 72.0% 的最新 SOTA 成绩,适合处理长视频摘要与跨画面推理。
在成本和延迟上,GPT‑4.1 相比 GPT‑4o 对典型请求便宜约 26%,并支持更高效的 Prompt Caching 和 Batch API;GPT‑4.1 mini 在多数基准上已接近甚至超越 GPT‑4o,价格降至原来的约 1/6;GPT‑4.1 nano 则是当前最快、最便宜的模型,适合分类、自动补全等低延迟场景。
综合来看,GPT‑4.1 系列在实际工程、智能代理和长文档理解等关键场景中,提供了兼具性能、成本与延迟的全新“实用标杆”,并将逐步取代 GPT‑4.5 Preview 成为主力 API 模型。
Playground
登录后,探索更多精彩功能! 点击登录