Claude Sonnet 5实测：降价6成，Opus 9成实力？但实际账单可能不降反升丨302.AI 基准实验室 -

I. 实测模型基础信息
II. 测试结果总览
- 302.AI 多模态模型测评分数榜单：
III. 案例展示
IV. Claude Sonnet 5 模型实测结论
V. 如何在 302.AI 上使用

文章导读：
Anthropic 发布 Claude Sonnet 5，定位”最具 Agent 能力的 Sonnet 模型”，以 Opus 4.8 六成左右的价格承诺接近旗舰的性能，被不少开发者视为 Opus 平替。但它真的能替代旗舰吗？本文围绕多个实际场景，将 Sonnet 5 与 Opus 4.8 进行同台实测，探究其真实表现。

7 月 1 日，距离 Fable 5 因出口管制风波被下架还不到三周，Anthropic 又打出了一张新牌。这次不是旗舰，而是 Sonnet 系列的最新版本——Claude Sonnet 5，官方定位非常直白：迄今为止最具 Agent 能力的 Sonnet 模型。

Sonnet 5 已经能够像一个真正的 AI Agent 一样工作：可以自主制定计划、调用浏览器和终端等工具，完成长时间、多步骤任务，中途还能主动检查自己的结果，而这一能力，在几个月前还需要更昂贵的旗舰模型才能实现。

Claude Sonnet 5实测：降价6成，Opus 9成实力？但实际账单可能不降反升丨302.AI 基准实验室

性能方面，Sonnet 5 在推理、Agent、编程和知识工作等能力上都有明显提升，Anthropic 称其已经逼近 Opus 4.8，但价格却低得多。首发期间（8 月 31 日前） API 定价为输入 1M/Token 2 美元、输出 1M/Token 10 美元，标准价格为 Opus 4.8 的六成左右，因此不少开发者把它视为 Opus 平替。

核心升级点：

真正的自主 Agent 能力：能自己制定计划、拆解任务，还会主动调用浏览器、终端等工具。以前要达到这种长时间自主运行的水平，得掏钱上更贵的 Opus 级模型，现在 Sonnet 5 直接把门槛拉低了；
性能直逼旗舰：在推理、工具使用、编程、知识工作等 Agent 关键场景里，比 Sonnet 4.6 有明显提升，很多任务已经非常接近 Opus 4.8。官方自己画的成本-性能曲线里，Sonnet 5 将前序模型甩开一大段距离，在中等努力程度下性价比非常高，高努力时还能在部分任务上追平 Opus；
更靠谱的执行力：早期测试反馈最一致的两点——它能干完以前会半途而废的复杂任务，而且会主动检查自己的输出，不用人盯着。这对依赖多步骤自动化、工作流的人来说，算是降维打击。
安全方面比前代更稳：整体不良行为（幻觉、谄媚、被劫持等）比 4.6 少，在拒绝恶意请求和抵御提示注入攻击方面表现更好。虽然整体安全性还比不上 Opus 4.8 和 Mythos 5，但比自己的上一代强了不少。

然而，Sonnet 5 的定价看似只有 Opus 4.8 的六成左右，但也有开发者发现，Sonnet 5 跑每个任务的实际花费比 Opus 4.8 贵了约 15%，仅次于 Fable 5。原因是它完成同样类型的任务消耗了更多 token。Sonnet 5 在推理和规划上“更用力”，想得更多、说得也更多，所以虽然每个 token 单价更低，但最后账单反而变高。

榜单排名：

在Artificial Analysis榜单中目前排名第5.

用户反馈：

那么 Sonnet 5 与 Opus 4.8 实际表现中的差距悬殊如何？302.AI将根据实际使用和测试，来了解其真实表现。

I. 实测模型基础信息

（1）实测模型在 302.AI 的价格：

模型名称	上下文	说明	302.AI内的价格
claude-sonnet-5	1000000	缓存写入 $3.75 / 1M tokens缓存读取 $0.3 / 1M tokens	输入 $2 / 1M tokens输出 $10 / 1M tokens
claude-sonnet-5	1000000	缓存写入 $3.75 / 1M tokens缓存读取 $0.3 / 1M tokens	输入 $2 / 1M tokens输出 $10 / 1M tokens	claude-opus-4-8	200000	缓存写入：$6.25 /1M tokens 缓存读取：$0.5 /1M tokens	输入 $5 / 1M tokens输出 $25 / 1M tokens
1000000	缓存写入：$12.5 /1M tokens缓存读取：$1 /1M tokens	输入 $10 / 1M tokens输出 $37.5 / 1M tokens			200000	缓存写入：$6.25 /1M tokens 缓存读取：$0.5 /1M tokens	输入 $5 / 1M tokens输出 $25 / 1M tokens

（2）测评目的：

本评测侧重模型对逻辑，数学，编程，多模态，人类直觉等问题的测试，非专业前沿领域的权威测试。旨在观察对比模型的进化趋势，提供选型参考。

（3）测评方法：

本次测评使用302.AI收录的题库进行独立测试。模型分别就逻辑与数学（共10题），人类直觉（共7题），多模态（共20题）以及编程模拟（共12题）进行案例测试，对应记分规则取最终结果，下文选取代表性案例进行展示。

题库地址：https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0

💡记分规则：

按满分10分记分，设定对应扣分标准，最终取每轮得分的平均值。

（4）测评工具：

所有模型均在302.AI Stuidio客户端内使用对应模型，使用统一的提示词，取第一次生成结果
编程测试使用302.AI Stuidio客户端的Vibe模式：调用Claude Code沙盒

编程案例分数评级：

⭐⭐⭐⭐⭐ S 级（封神）：行业标杆，重新定义标准。

⭐⭐⭐⭐ A 级（卓越）：生产力合格，无明显短板。

⭐⭐⭐ B 级（优秀）：表现中规中矩，存在短板。

⭐⭐及以下 C级（不合格）：不可用，存在明显问题。

II. 测试结果总览

302.AI 多模态模型测评分数榜单：

III. 案例展示

案例 1：多模态推理

提示词：选出三张缺失的拼图

答案：acf

Claude Sonnet 5：选对了 1 块正确拼图

Claude Opus 4.8：选对了 2 块正确拼图

案例 2：程序化 SVG 图形生成

绘制一幅世界杯进球时刻的svg动态图

Claude Sonnet 5 输出效果：

Claude Opus 4.8 输出效果：

绘制一辆F1赛车在跑道上的svg动态图

Claude Sonnet 5 输出效果：

Claude Opus 4.8 输出效果：

简评：

Sonnet 5 绘制的图形复杂度明显弱于 Opus 4.8，物理效果、运动逻辑和整体流畅度也略逊一筹。

测评点	Claude Sonnet 5	Claude Opus 4.8
语义表达准确度	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
图形构造复杂度	⭐⭐⭐	⭐⭐⭐⭐
动态实现质量	⭐⭐	⭐⭐⭐

案例 3：FIFA 世界杯奖杯展示页

Create a premium 3D FIFA World Cup Trophy showcase website.
Build an immersive single-page experience centered around the World Cup trophy. The trophy should be the visual focus, featuring realistic materials, dramatic lighting, smooth animations, and interactive camera movement.
Include a cinematic introduction, a section highlighting the history and prestige of the tournament, and a memorable final reveal. Use modern web technologies and create a polished, presentation-quality experience that feels worthy of football's greatest prize.
Focus on visual impact, storytelling, and a sense of wonder.

Claude Sonnet 5 输出效果：

完整网页：https://huevyta83f.302ai.app

录屏展示：

简评：

✅ 核心优势：

更复杂的 3D 与交互实现：使用了 ScrollTrigger 将页面滚动与 3D 场景的摄像机运动、模型动画绑定，实现滚动触发，奖杯建模可能过于光滑，但光影表现更佳。
更有层次的视觉设计：章节按叙事划分清晰，包含了加载进度条、鼠标跟随光点、颗粒噪点覆盖、视差滚动等细节，极大地提升了品质感和沉浸感。
文案更具感染力：大量使用强有力的短语标语，以及独立的章节标题，完美结合奖杯的物理属性与精神象征。

Claude Opus 4.8 输出效果：

完整网页：https://evetfk4yyx.302ai.app/

录屏展示：

简评：

Opus 4.8 的奖杯建模更细致写实，质感较佳，且提供了双语切换选项，只是整体视觉（尤其是字体、板块的设计）与 Sonnet 5 相比偏向保守，缺乏一定丰富度。

测评点	Claude Sonnet 5	Claude Opus 4.8
模型质感	⭐⭐⭐	⭐⭐⭐⭐
交互与滚动叙事	⭐⭐⭐⭐	⭐⭐⭐
技术实现	⭐⭐⭐⭐	⭐⭐⭐
视觉冲击力	⭐⭐⭐⭐	⭐⭐⭐

案例 4：3D游戏

Build a 3D racing game using Three.js.

Requirements:
- Third-person camera behind the car
- WASD controls
- Physics-based acceleration, braking and steering
- One racing track
- Collision detection
- Speedometer
- Lap timer
- Responsive UI
- Clean, modular code

Claude Sonnet 5 输出效果：

完整网页：https://w5mf5nlk6f.302ai.app/

录屏展示：

简评：

✅ 核心优势：

物理反馈和驾驶手感更佳，整体车辆控制更丝滑，包含了更真实的加速度曲线。
使用了独立的track.js和collision.js，赛道明显更复杂和具备不确定性，可玩性更高。

❌ 不足之处：

碰撞检测不足，边界检测不够精准，可能出现穿模等情况。

Claude Opus 4.8 输出效果：

完整网页：https://6brrs9q84x.302ai.app

录屏展示：

简评：

Opus 4.8 输出的赛道规制更接近 f1 真实赛制模拟，采用更现代的 ES Module 方式，并且拥有完整的游戏流程，然而最大问题在于车辆控制手感基础，阻力较大，游戏体验遭到削减。

IV. Claude Sonnet 5 模型实测结论

总体来看，Sonnet 5 确实是 Sonnet 系列迄今进步最明显的一次更新，在 Agent 自主能力和中高强度任务上的提升肉眼可见。它把过去更多属于 Opus 的长时间执行能力，下放到了中端价位。但“能力逼近 Opus”未必意味着它能作为 Opus 4.8 的完美平替，在部分场景中，两者之间依然能够明显感受到旗舰模型的优势。

具体谈几点实测体感：

1. Agent 和工程能力是主要升级方向

Anthropic 这次几乎把所有宣传重点都放在了 Agent 上，而实际体验也基本符合这一定位。

相比前序模型，Sonnet 5 在长流程任务中的连续执行能力、自主规划能力以及工具调用能力都有明显提升，更愿意主动思考和完成整个任务，而不是依赖用户进一步提示。对于编程、自动化工作流、Agent 应用等场景，这种提升是有价值的。

从我们的编程案例来看，Sonnet 5 输出的网页视觉表现、交互设计以及代码组织方式已经很大程度能够追上 Opus 4.8，在部分偏创意、偏视觉表达的任务中甚至更激进一些，已经具备比较成熟的工程交付能力。

例如 Three.js 赛车游戏的实测案例，Sonnet 5 生成的代码物理反馈更丝滑，赛道更复杂，可玩性甚至比 Opus 4.8 的版本还高一些。虽然碰撞检测还有点小毛病，但整体工程质量和视觉完成度已经和 Opus 4.8 站在同一档了；FIFA 奖杯展示页案例也印证了这一点，Sonnet 5 在滚动叙事、交互设计、视觉冲击力上甚至压过了 Opus 4.8，文案感染力也更在线。如果你的工作更多集中在复杂前端页面、可视化项目或高质量 UI 生成上，Sonnet 5 的实际体验与 Opus 的差距已经没有想象中那么大。

2. 能力接近 Opus，但并未全面持平

Sonnet 5 一出，大部分舆论倾向于将其往 Opus 平替这一方向引导，认为 Sonnet 5 能以更低价格提供接近 Opus 4.8 的能力。而真实反馈确实如此吗？

我们的实测结果更倾向于认为，两者其实是不同方向上的强项：

涉及复杂逻辑推理时，Sonnet 5 相比前代确实有一定提升；但在人类直觉、多模态理解等更依赖综合认知的任务上，整体稳定性仍然略逊于 Opus 4.8。一些需要视觉细节判断、复杂空间推理的案例里，Opus 的准确率依旧更高。简单理解就是，Sonnet 5 已经能够覆盖绝大多数开发场景，但如果追求的是旗舰模型的综合能力，它仍然没有完全追平 Opus。

3. 实际使用成本存在争议

Anthropic 自己也强调了 Sonnet 5 拥有“更接近 Opus 4.8 的性能，更低的价格”，从目前限时优惠中的定价来看确实如此。

不过，也有不少开发者发现，由于新版 tokenizer 以及更高的 token 消耗，同样的任务，Sonnet 5 实际产生的 token 数明显增加，因此最终账单未必像标价看起来那么便宜。与此同时，在更低价位上，像 GLM-5.2 这样的模型，与 Sonnet 5 的实际能力差距也未必有价格差距那么大。

此外，Sonnet 5 的发布时机也很耐人寻味。彼时 Fable 仍未恢复开放，旗舰产品线尚未完全回归，而 Anthropic 恰好推出了一款能力更接近 Opus、价格却更低的 Sonnet。很难不让人联想，这是一张在当前监管限制下，用中端产品撑住商业节奏的牌。对用户来说，它确实提供了一个更便宜的 Agent 方案；但对 Anthropic 来说，这个时间点抛出这款模型，优先级恐怕不是给用户以更多选择，而是用于填补旗舰模型暂时缺席期间的市场空档。

总结一下：Sonnet 5 是一款在编程、工程、视觉呈现上全力追赶期间级、但在多模态和深层推理上还够不到旗舰的模型。它最适合的场景是：你需要一个能自主跑多步骤任务、写复杂代码、做高质量页面的 Agent，而且希望成本比 Opus 低。但如果你的目标始终是当前最强的综合能力，Opus 4.8 依然是那个更稳妥的答案。

V. 如何在 302.AI 上使用

1. 使用302.AI客户端

步骤指引：对话框内选择模型菜单

输入sonnet即可获取相应版本调用

2. 聊天机器人中使用

步骤指引：应用超市→聊天机器人→立即体验

选择模型：Anthropic模型→claude-sonnet-5→确认

3. 使用模型 API

步骤指引：API超市→语言大模型→Anthropic→claude-sonnet-5

点击【Playground】在线调用 API

想即刻体验 Claude Sonnet 5 模型？

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

Claude Sonnet 5实测：降价6成，Opus 9成实力？但实际账单可能不降反升丨302.AI 基准实验室

I. 实测模型基础信息

（1）实测模型在 302.AI 的价格：

（2）测评目的：

（3）测评方法：

（4）测评工具：

II. 测试结果总览

302.AI 多模态模型测评分数榜单：

III. 案例展示

案例 1：多模态推理

案例 2：程序化 SVG 图形生成

案例 3：FIFA 世界杯奖杯展示页

案例 4：3D游戏

IV. Claude Sonnet 5 模型实测结论

1. Agent 和工程能力是主要升级方向

2. 能力接近 Opus，但并未全面持平

3. 实际使用成本存在争议

V. 如何在 302.AI 上使用

1. 使用302.AI客户端

2. 聊天机器人中使用

3. 使用模型 API

相关推荐

Doubao Seed 2.1 Pro 实测：多模态与推理跻身第一梯队，Agent 场景的“水桶机”丨302.AI 基准实验室

Kimi K2.7 Code 实测：告别过度思考，Token 消耗锐减 30%丨302.AI 基准实验室

GLM-5.2 实测：开源新皇，国产模型里离Opus最近的一个丨302.AI 基准实验室

最强公开模型 Claude Fable 5 实测：神坛之上，也有短板丨302.AI 基准实验室

发表回复