Claude Opus 4.6
-
Claude Sonnet 4.6 实测:旗舰级体验,中端级成本,能否掀翻旗舰 Opus?丨302.AI 基准实验室
文章导读: Anthropic深夜突袭,发布“史上最强Sonnet”——Claude Sonnet 4.6。这款中端模型以较高的性价比实现了接近Opus的旗舰级性能,实测显示,Sonnet 4.6 在多模态识别与办公任务中竟反向超越旗舰 Opus 4.6,但在深度逻辑推理上仍存差距。本文通过多维度基准测试与编程实战,揭秘这款“性价比新王”的真实实力,以及Op…
-
谷歌Gemini 3.1 Pro实测:掀翻 Claude 4.6 强势登顶!能否堪称完美?丨302.AI 基准实验室
导读: 谷歌于2月20日推出Gemini 3.1 Pro,以Sparse MoE架构和Deep Think深度思考模式为核心升级,支持100万Token上下文输入与64K输出上限。302.AI已接入模型API,本期实测涵盖逻辑数学、人类直觉、多模态推理及前端编程四大维度。测试结果显示,Gemini 3.1 Pro强势登顶302 Bench Lab的多模态模型…
-
GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室
12日凌晨,智谱 AI 正式发布新一代旗舰级基础模型 GLM-5——上周以“Pony Alpha”的匿名身份在OpenRouter上爆火的SOTA级神秘模型,终于露出了真容。 基于官方文档,对GLM-5 模型进行总结: 📊 核心参数 参数项 数据 模型规模 744B总参数(40B激活参数) 预训练数据 28.5T tokens 前代对比 GLM-4.5: 3…
-
Claude Opus 4.6 实测:百万上下文注入,依旧是顶级的编程脑丨302.AI 基准实验室
文章导读:2026年开年,大模型战火重燃。Anthropic重磅推出Claude Opus 4.6,在维持原价的基础上,实现了100万token上下文、编程效能与推理深度的升级。302.AI第一时间接入实测,通过逻辑、多模态及编程模拟等实测,检验其是否具备“肉眼可见”的进化。实测显示,Opus 4.6不仅在代码生成上表现出优秀的连贯性,更展现出独特的“产品架…