LLM
-
最强公开模型 Claude Fable 5 实测:神坛之上,也有短板丨302.AI 基准实验室
文章导读: Anthropic 发布“神话级”模型 Claude Fable 5。作为当前最强公开模型,它到底有多能打?实测显示:Fable 5 的绝对统治区在于长周期、高复杂度的工程交付,编码性能远在 Opus 系列之上,展现出断层领先的 Agent 级实力;但最强亦有代价,翻倍的定价,以及用户吐槽度极高的“静默降级”风险,花高价换来的“非完整版”究竟值不…
-
30天限免开启,Step 3.7 Flash实测:不惊艳但顺手,Agent不用省着用了丨302.AI 基准实验室
文章导读: “Flash”往往被视作大模型的轻量妥协版,但阶跃星辰最新发布的 1980 亿参数 MoE 模型 Step-3.7-Flash,却试图打破这一刻板印象。凭借最高 400 Tokens/s 的极速输出、原生多模态与 Agent 能力,它究竟是只停留在纸面参数,还是真有两把刷子?综合实测显示:模型或许未达顶级 Pro 的智商上限,却在速度、稳定性与性…
-
MiniMax M3 实测:首个集齐 Frontier 三件套的开源模型,能否成为平替天花板丨302.AI 基准实验室
文章导读: MiniMax 重磅发布新一代旗舰模型 M3,一举成为全球首个同时具备 Frontier 三件套——前沿 Coding 与 Agent 能力、1M 超长上下文、原生多模态的开源权重模型。作为开源阵营中罕见的“全能选手”,其真实表现如何?实测表明:M3 的代码生成与长程 Agent 能力是最大亮点,多模态补齐版图,高性价比依旧是杀手锏,但与顶尖闭源…
-
Anthropic重夺SOTA,Claude Opus 4.8 实测:可靠性与工程执行力的双重升级丨302.AI 基准实验室
文章导读: 距 4.7 发布仅 40 天,Claude Opus 4.8 极速登场,或为 Anthropic 面对激烈竞争的一场防守反击?当竞争对手在高性价比赛道疯狂攻城略地,Opus 4.8 依然不卷性价比,而是主打“诚实度”。从系统级编程的工程执行力跃升,到谎报率降至 0% 的突破,再到能调度上百个子智能体并行作业的 Agent 能力,新版本正向企业核心…
-
Qwen3.7-Max测评:设计审美提升,长程任务稳定,Max级数字员工驾到丨302.AI 基准实验室
文章导读: 距离上代发布仅一月,阿里全新旗舰模型 Qwen3.7-Max 正式上线,剑指全能智能体基座。测评发现,相比 Qwen3.6-Plus,新版本模型在逻辑推理上更具动态构造性,视觉审美与代码交互表现力更是大幅进化,尤其在长周期自主任务中展现出较强稳定性。本文将通过多维度实战案例,探索这位“Max 级数字员工”的真实生产力。 5月20日,距离上一次模型…
-
凭什么干翻 3.1 Pro?Gemini 3.5 Flash 实测:终结“轻量模型必定逊色”的铁律丨302.AI 基准实验室
文章导读: Google I/O 2026开发者大会上,DeepMind 发布 Gemini 3.5 家族首款模型——主打速度、成本与长任务能力的 Gemini 3.5 Flash。实测显示,其289 Token/s 生成速度、1M 上下文窗口及“思考”能力,让它在多模态、编程等场景表现突出,部分能力甚至超越 Gemini 3.1 Pro,成为兼具效率与性价…
-
Grok 4.3 实测:放弃“最强模型”叙事,从聊天机器人到数字员工的务实转身丨302.AI 基准实验室
文章导读: 当 AI 竞争从参数比拼转向实战落地,Grok 4.3 携极高性价比入局。4.3 版本强化了代码执行与工具调度能力,在实测展现出多模态推理与前端编程审美的显著提升,但复杂任务稳定性与人类直觉上仍有短板。究竟是能跻身第一梯队的黑马,还是仅仅作为一个“够用”的平替?本期文章将深度拆解其真实实力。 当 AI 大模型的竞争从单纯的参数比拼转向实战落地,x…
-
GPT-5.5 实测:牺牲了惊艳,换来了不出错,这笔翻倍溢价值不值得掏?丨302.AI 基准实验室
文章导读: GPT-5.5 来了,官方主打“最适合真实工作”。实测发现,新版本并非惊艳的代际飞跃,而是一次务实的稳步升级。面对长链路、多步骤的复杂工程任务,GPT-5.5 完成度更高、返工率更低,但在创意与物理模拟上表现平平。它能为重度工程任务省下高昂的返工成本,却不一定适配轻度使用需求。同时,API 价格翻倍,这笔溢价值不值得掏?在GPT-5.4推出一个多…
-
开源最强还是工程最强?Kimi K2.6 实测:长程执行与 Agent 能力的分水岭丨302.AI 基准实验室
文章导读:月之暗面开源模型 Kimi K2.6 重磅更新,聚焦长程编码与 Agent 能力进化。本期实测结果显示:K2.6 在长程工程执行上表现亮眼,多模态生成设计融合度提升但稳定性仍有波动,Agent 集群能力显著增强,从工具调用转向任务组织。作为开源 SOTA 模型,其复杂任务拆解与持续执行能力,为生产力场景带来了实际价值。4月21日,在时隔近3个月后,…
-
能力跻身第一梯队?DeepSeek-V4-Pro 实测:从参数竞赛回归场景适配丨302.AI 基准实验室
文章导读: 千呼万唤始出来,DeepSeek-V4 于 4 月 24 日正式发布,以 1M 超长上下文全系标配宣布迈入百万上下文普惠时代。核心更新聚焦效率革命,Agent 能力跻身国产开源第一梯队,V4-Pro与 Flash 双版本策略兼顾性能与成本。实测结果显示,其在逻辑、编程等多维度表现稳定,已具备生产流程能力,选型更重场景适配,为开发者提供高性价比选择…