文章导读:
Anthropic 发布 Claude Sonnet 5,定位”最具 Agent 能力的 Sonnet 模型”,以 Opus 4.8 六成左右的价格承诺接近旗舰的性能,被不少开发者视为 Opus 平替。但它真的能替代旗舰吗?本文围绕多个实际场景,将 Sonnet 5 与 Opus 4.8 进行同台实测,探究其真实表现。
7 月 1 日,距离 Fable 5 因出口管制风波被下架还不到三周,Anthropic 又打出了一张新牌。这次不是旗舰,而是 Sonnet 系列的最新版本——Claude Sonnet 5,官方定位非常直白:迄今为止最具 Agent 能力的 Sonnet 模型。
Sonnet 5 已经能够像一个真正的 AI Agent 一样工作:可以自主制定计划、调用浏览器和终端等工具,完成长时间、多步骤任务,中途还能主动检查自己的结果,而这一能力,在几个月前还需要更昂贵的旗舰模型才能实现。

性能方面,Sonnet 5 在推理、Agent、编程和知识工作等能力上都有明显提升,Anthropic 称其已经逼近 Opus 4.8,但价格却低得多。首发期间(8 月 31 日前) API 定价为输入 1M/Token 2 美元、输出 1M/Token 10 美元,标准价格为 Opus 4.8 的六成左右,因此不少开发者把它视为 Opus 平替。
核心升级点:
- 真正的自主 Agent 能力:能自己制定计划、拆解任务,还会主动调用浏览器、终端等工具。以前要达到这种长时间自主运行的水平,得掏钱上更贵的 Opus 级模型,现在 Sonnet 5 直接把门槛拉低了;
- 性能直逼旗舰:在推理、工具使用、编程、知识工作等 Agent 关键场景里,比 Sonnet 4.6 有明显提升,很多任务已经非常接近 Opus 4.8。官方自己画的成本-性能曲线里,Sonnet 5 将前序模型甩开一大段距离,在中等努力程度下性价比非常高,高努力时还能在部分任务上追平 Opus;
- 更靠谱的执行力:早期测试反馈最一致的两点——它能干完以前会半途而废的复杂任务,而且会主动检查自己的输出,不用人盯着。这对依赖多步骤自动化、工作流的人来说,算是降维打击。
- 安全方面比前代更稳:整体不良行为(幻觉、谄媚、被劫持等)比 4.6 少,在拒绝恶意请求和抵御提示注入攻击方面表现更好。虽然整体安全性还比不上 Opus 4.8 和 Mythos 5,但比自己的上一代强了不少。


然而,Sonnet 5 的定价看似只有 Opus 4.8 的六成左右,但也有开发者发现,Sonnet 5 跑每个任务的实际花费比 Opus 4.8 贵了约 15%,仅次于 Fable 5。原因是它完成同样类型的任务消耗了更多 token。Sonnet 5 在推理和规划上“更用力”,想得更多、说得也更多,所以虽然每个 token 单价更低,但最后账单反而变高。

榜单排名:

在Artificial Analysis榜单中目前排名第5.
用户反馈:

那么 Sonnet 5 与 Opus 4.8 实际表现中的差距悬殊如何?302.AI将根据实际使用和测试,来了解其真实表现。
I. 实测模型基础信息
(1)实测模型在 302.AI 的价格:
| 模型名称 | 上下文 | 说明 | 302.AI内的价格 |
|---|---|---|---|
| claude-sonnet-5 | 1000000 | 缓存写入 $3.75 / 1M tokens缓存读取 $0.3 / 1M tokens | 输入 $2 / 1M tokens输出 $10 / 1M tokens |
| claude-opus-4-8 | 200000 | 缓存写入:$6.25 /1M tokens 缓存读取:$0.5 /1M tokens | 输入 $5 / 1M tokens输出 $25 / 1M tokens |
| 1000000 | 缓存写入:$12.5 /1M tokens缓存读取:$1 /1M tokens | 输入 $10 / 1M tokens输出 $37.5 / 1M tokens |
(2)测评目的:
本评测侧重模型对逻辑,数学,编程,多模态,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。
(3)测评方法:
本次测评使用302.AI收录的题库进行独立测试。模型分别就逻辑与数学(共10题),人类直觉(共7题),多模态(共20题)以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。
题库地址:https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0
💡记分规则:
按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。
(4)测评工具:
- 所有模型均在302.AI Stuidio客户端内使用对应模型,使用统一的提示词,取第一次生成结果
- 编程测试使用302.AI Stuidio客户端的Vibe模式:调用Claude Code沙盒
编程案例分数评级:
⭐⭐⭐⭐⭐ S 级(封神): 行业标杆,重新定义标准。
⭐⭐⭐⭐ A 级(卓越): 生产力合格,无明显短板。
⭐⭐⭐ B 级(优秀): 表现中规中矩,存在短板。
⭐⭐及以下 C级(不合格): 不可用,存在明显问题。
II. 测试结果总览
302.AI 多模态模型测评分数榜单:

III. 案例展示
案例 1:多模态推理
提示词:选出三张缺失的拼图
答案:acf

Claude Sonnet 5:选对了 1 块正确拼图

Claude Opus 4.8:选对了 2 块正确拼图

案例 2:程序化 SVG 图形生成
绘制一幅世界杯进球时刻的svg动态图
Claude Sonnet 5 输出效果:

Claude Opus 4.8 输出效果:

绘制一辆F1赛车在跑道上的svg动态图
Claude Sonnet 5 输出效果:

Claude Opus 4.8 输出效果:

简评:
Sonnet 5 绘制的图形复杂度明显弱于 Opus 4.8,物理效果、运动逻辑和整体流畅度也略逊一筹。
| 测评点 | Claude Sonnet 5 | Claude Opus 4.8 |
| 语义表达准确度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 图形构造复杂度 | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| 动态实现质量 | ⭐⭐ | ⭐⭐⭐ |
案例 3:FIFA 世界杯奖杯展示页
Create a premium 3D FIFA World Cup Trophy showcase website.
Build an immersive single-page experience centered around the World Cup trophy. The trophy should be the visual focus, featuring realistic materials, dramatic lighting, smooth animations, and interactive camera movement.
Include a cinematic introduction, a section highlighting the history and prestige of the tournament, and a memorable final reveal. Use modern web technologies and create a polished, presentation-quality experience that feels worthy of football's greatest prize.
Focus on visual impact, storytelling, and a sense of wonder.
Claude Sonnet 5 输出效果:
完整网页:https://huevyta83f.302ai.app
录屏展示:
简评:
✅ 核心优势:
- 更复杂的 3D 与交互实现:使用了 ScrollTrigger 将页面滚动与 3D 场景的摄像机运动、模型动画绑定,实现滚动触发,奖杯建模可能过于光滑,但光影表现更佳。
- 更有层次的视觉设计:章节按叙事划分清晰,包含了加载进度条、鼠标跟随光点、颗粒噪点覆盖、视差滚动等细节,极大地提升了品质感和沉浸感。
- 文案更具感染力:大量使用强有力的短语标语,以及独立的章节标题,完美结合奖杯的物理属性与精神象征。
Claude Opus 4.8 输出效果:
完整网页:https://evetfk4yyx.302ai.app/
录屏展示:
简评:
Opus 4.8 的奖杯建模更细致写实,质感较佳,且提供了双语切换选项,只是整体视觉(尤其是字体、板块的设计)与 Sonnet 5 相比偏向保守,缺乏一定丰富度。
| 测评点 | Claude Sonnet 5 | Claude Opus 4.8 |
| 模型质感 | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| 交互与滚动叙事 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 技术实现 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 视觉冲击力 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
案例 4:3D游戏
Build a 3D racing game using Three.js.
Requirements:
- Third-person camera behind the car
- WASD controls
- Physics-based acceleration, braking and steering
- One racing track
- Collision detection
- Speedometer
- Lap timer
- Responsive UI
- Clean, modular code
Claude Sonnet 5 输出效果:
完整网页:https://w5mf5nlk6f.302ai.app/
录屏展示:
简评:
✅ 核心优势:
- 物理反馈和驾驶手感更佳,整体车辆控制更丝滑,包含了更真实的加速度曲线。
- 使用了独立的
track.js和collision.js,赛道明显更复杂和具备不确定性,可玩性更高。
❌ 不足之处:
- 碰撞检测不足,边界检测不够精准,可能出现穿模等情况。
Claude Opus 4.8 输出效果:
完整网页:https://6brrs9q84x.302ai.app
录屏展示:
简评:
Opus 4.8 输出的赛道规制更接近 f1 真实赛制模拟,采用更现代的 ES Module 方式,并且拥有完整的游戏流程,然而最大问题在于车辆控制手感基础,阻力较大,游戏体验遭到削减。
IV. Claude Sonnet 5 模型实测结论

总体来看,Sonnet 5 确实是 Sonnet 系列迄今进步最明显的一次更新,在 Agent 自主能力和中高强度任务上的提升肉眼可见。它把过去更多属于 Opus 的长时间执行能力,下放到了中端价位。但“能力逼近 Opus”未必意味着它能作为 Opus 4.8 的完美平替,在部分场景中,两者之间依然能够明显感受到旗舰模型的优势。
具体谈几点实测体感:
1. Agent 和工程能力是主要升级方向
Anthropic 这次几乎把所有宣传重点都放在了 Agent 上,而实际体验也基本符合这一定位。
相比前序模型,Sonnet 5 在长流程任务中的连续执行能力、自主规划能力以及工具调用能力都有明显提升,更愿意主动思考和完成整个任务,而不是依赖用户进一步提示。对于编程、自动化工作流、Agent 应用等场景,这种提升是有价值的。
从我们的编程案例来看,Sonnet 5 输出的网页视觉表现、交互设计以及代码组织方式已经很大程度能够追上 Opus 4.8,在部分偏创意、偏视觉表达的任务中甚至更激进一些,已经具备比较成熟的工程交付能力。
例如 Three.js 赛车游戏的实测案例,Sonnet 5 生成的代码物理反馈更丝滑,赛道更复杂,可玩性甚至比 Opus 4.8 的版本还高一些。虽然碰撞检测还有点小毛病,但整体工程质量和视觉完成度已经和 Opus 4.8 站在同一档了;FIFA 奖杯展示页案例也印证了这一点,Sonnet 5 在滚动叙事、交互设计、视觉冲击力上甚至压过了 Opus 4.8,文案感染力也更在线。如果你的工作更多集中在复杂前端页面、可视化项目或高质量 UI 生成上,Sonnet 5 的实际体验与 Opus 的差距已经没有想象中那么大。
2. 能力接近 Opus,但并未全面持平
Sonnet 5 一出,大部分舆论倾向于将其往 Opus 平替这一方向引导,认为 Sonnet 5 能以更低价格提供接近 Opus 4.8 的能力。而真实反馈确实如此吗?
我们的实测结果更倾向于认为,两者其实是不同方向上的强项:
涉及复杂逻辑推理时,Sonnet 5 相比前代确实有一定提升;但在人类直觉、多模态理解等更依赖综合认知的任务上,整体稳定性仍然略逊于 Opus 4.8。一些需要视觉细节判断、复杂空间推理的案例里,Opus 的准确率依旧更高。简单理解就是,Sonnet 5 已经能够覆盖绝大多数开发场景,但如果追求的是旗舰模型的综合能力,它仍然没有完全追平 Opus。
3. 实际使用成本存在争议
Anthropic 自己也强调了 Sonnet 5 拥有“更接近 Opus 4.8 的性能,更低的价格”,从目前限时优惠中的定价来看确实如此。
不过,也有不少开发者发现,由于新版 tokenizer 以及更高的 token 消耗,同样的任务,Sonnet 5 实际产生的 token 数明显增加,因此最终账单未必像标价看起来那么便宜。与此同时,在更低价位上,像 GLM-5.2 这样的模型,与 Sonnet 5 的实际能力差距也未必有价格差距那么大。
此外,Sonnet 5 的发布时机也很耐人寻味。彼时 Fable 仍未恢复开放,旗舰产品线尚未完全回归,而 Anthropic 恰好推出了一款能力更接近 Opus、价格却更低的 Sonnet。很难不让人联想,这是一张在当前监管限制下,用中端产品撑住商业节奏的牌。对用户来说,它确实提供了一个更便宜的 Agent 方案;但对 Anthropic 来说,这个时间点抛出这款模型,优先级恐怕不是给用户以更多选择,而是用于填补旗舰模型暂时缺席期间的市场空档。
总结一下:Sonnet 5 是一款在编程、工程、视觉呈现上全力追赶期间级、但在多模态和深层推理上还够不到旗舰的模型。它最适合的场景是:你需要一个能自主跑多步骤任务、写复杂代码、做高质量页面的 Agent,而且希望成本比 Opus 低。但如果你的目标始终是当前最强的综合能力,Opus 4.8 依然是那个更稳妥的答案。
V. 如何在 302.AI 上使用
1. 使用302.AI客户端
步骤指引:对话框内选择模型菜单

输入sonnet即可获取相应版本调用

2. 聊天机器人中使用
步骤指引 :应用超市→聊天机器人→立即体验

选择模型:Anthropic模型→claude-sonnet-5→确认

3. 使用模型 API
步骤指引:API超市→语言大模型→Anthropic→claude-sonnet-5


点击【Playground】在线调用 API

想即刻体验 Claude Sonnet 5 模型?
👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手
