Claude Opus 4.6 -

Claude Opus 4.7 实测：或许是在“Mythos”到来前，妥协的一次版本更迭丨302.AI 基准实验室

文章导读：当外界目光聚焦 Mythos 时，Anthropic 悄然释出了 Claude Opus 4.7。作为 4.6 的强化版，它在指令遵循、复杂编程、Agent 及高分辨率多模态上全面进化，尤其在代码生成与前端开发场景中，展现出了前所未有的“交付级”生产力。然而，更强的性能也伴随着 Token 消耗，用户口碑更呈现两极分化。上限拉高的同时，稳定区间是…

2026 年 4 月 21 日 • 基准实验室

2.7K00

Claude Sonnet 4.6 实测：旗舰级体验，中端级成本，能否掀翻旗舰 Opus？丨302.AI 基准实验室

文章导读： Anthropic深夜突袭，发布“史上最强Sonnet”——Claude Sonnet 4.6。这款中端模型以较高的性价比实现了接近Opus的旗舰级性能，实测显示，Sonnet 4.6 在多模态识别与办公任务中竟反向超越旗舰 Opus 4.6，但在深度逻辑推理上仍存差距。本文通过多维度基准测试与编程实战，揭秘这款“性价比新王”的真实实力，以及Op…

2026 年 3 月 2 日 • 基准实验室

2.9K00

谷歌Gemini 3.1 Pro实测：掀翻 Claude 4.6 强势登顶！能否堪称完美？丨302.AI 基准实验室

导读：谷歌于2月20日推出Gemini 3.1 Pro，以Sparse MoE架构和Deep Think深度思考模式为核心升级，支持100万Token上下文输入与64K输出上限。302.AI已接入模型API，本期实测涵盖逻辑数学、人类直觉、多模态推理及前端编程四大维度。测试结果显示，Gemini 3.1 Pro强势登顶302 Bench Lab的多模态模型…

2026 年 2 月 24 日 • 基准实验室

3.3K00

GLM-5实测：第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

12日凌晨，智谱 AI 正式发布新一代旗舰级基础模型 GLM-5——上周以“Pony Alpha”的匿名身份在OpenRouter上爆火的SOTA级神秘模型，终于露出了真容。基于官方文档，对GLM-5 模型进行总结： 📊 核心参数参数项数据模型规模 744B总参数（40B激活参数）预训练数据 28.5T tokens 前代对比 GLM-4.5: 3…

2026 年 2 月 12 日 • 基准实验室

4.0K00

Claude Opus 4.6 实测：百万上下文注入，依旧是顶级的编程脑丨302.AI 基准实验室

文章导读：2026年开年，大模型战火重燃。Anthropic重磅推出Claude Opus 4.6，在维持原价的基础上，实现了100万token上下文、编程效能与推理深度的升级。302.AI第一时间接入实测，通过逻辑、多模态及编程模拟等实测，检验其是否具备“肉眼可见”的进化。实测显示，Opus 4.6不仅在代码生成上表现出优秀的连贯性，更展现出独特的“产品架…

2026 年 2 月 9 日 • 基准实验室

4.6K00