LLM
-
实测GPT-5.3 Codex & Instant :找准定位,别让你的 AI 跨界干活丨302.AI 基准实验室
文章导读: OpenAI 推出 GPT-5.3 系列,明确划分为深耕工程的 Codex 与主打日常交互的 Instant。本文通过多项实测,从人类直觉、幻觉控制到复杂代码生成,多方位验证两款模型的真实进化。结果显示,Instant 成功“去AI味”,逻辑直觉更强且幻觉降低;Codex 则在工程化任务与可视化表现卓越,具备成熟的代理执行力。文章深入剖析了两者的…
-
Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室
阿里通义千问团队在推出Qwen3.5-397b的旗舰模型后,于2月25日带来了Qwen3.5 中型模型系列的更新。与以往“更大参数=更强能力”的惯性思维不同,这次官方打出了“More intelligence, less compute”(更聪明的智能,更少的算力)的旗号。 该系列包含三款开源模型及一项托管服务: 其中,Qwen3.5-35B-A3B 凭借仅…
-
Claude Sonnet 4.6 实测:旗舰级体验,中端级成本,能否掀翻旗舰 Opus?丨302.AI 基准实验室
文章导读: Anthropic深夜突袭,发布“史上最强Sonnet”——Claude Sonnet 4.6。这款中端模型以较高的性价比实现了接近Opus的旗舰级性能,实测显示,Sonnet 4.6 在多模态识别与办公任务中竟反向超越旗舰 Opus 4.6,但在深度逻辑推理上仍存差距。本文通过多维度基准测试与编程实战,揭秘这款“性价比新王”的真实实力,以及Op…
-
实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室
文章导读: 2月12日,MiniMax 发布最新模型 M2.5,主打编程、办公与复杂 Agent 任务,性能对标顶尖闭源模型,速度提升至 100 TPS,价格仅为竞品 1/10。通过多维度实测发现:M2.5 在代码生成与功能完整性上表现惊艳,能独立完成从需求到交互的全流程开发;但在处理模糊需求、审美判断等“人性化”场景时仍显生硬,细节打磨不足。整体而言,M2…
-
谷歌Gemini 3.1 Pro实测:掀翻 Claude 4.6 强势登顶!能否堪称完美?丨302.AI 基准实验室
导读: 谷歌于2月20日推出Gemini 3.1 Pro,以Sparse MoE架构和Deep Think深度思考模式为核心升级,支持100万Token上下文输入与64K输出上限。302.AI已接入模型API,本期实测涵盖逻辑数学、人类直觉、多模态推理及前端编程四大维度。测试结果显示,Gemini 3.1 Pro强势登顶302 Bench Lab的多模态模型…
-
GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室
12日凌晨,智谱 AI 正式发布新一代旗舰级基础模型 GLM-5——上周以“Pony Alpha”的匿名身份在OpenRouter上爆火的SOTA级神秘模型,终于露出了真容。 基于官方文档,对GLM-5 模型进行总结: 📊 核心参数 参数项 数据 模型规模 744B总参数(40B激活参数) 预训练数据 28.5T tokens 前代对比 GLM-4.5: 3…
-
Claude Opus 4.6 实测:百万上下文注入,依旧是顶级的编程脑丨302.AI 基准实验室
文章导读:2026年开年,大模型战火重燃。Anthropic重磅推出Claude Opus 4.6,在维持原价的基础上,实现了100万token上下文、编程效能与推理深度的升级。302.AI第一时间接入实测,通过逻辑、多模态及编程模拟等实测,检验其是否具备“肉眼可见”的进化。实测显示,Opus 4.6不仅在代码生成上表现出优秀的连贯性,更展现出独特的“产品架…
-
开源最强 Kimi K2.5 实测:跻身最强多模态梯队,视觉编程兑现创意构想丨302.AI 基准实验室
文章导读:月之暗面与阿里通义接连推出 Kimi K2.5 与 Qwen3-Max-Thinking,正式打响 2026 国产大模型巅峰对决。本文基于 302.AI 的实测数据,从逻辑推理到复杂编程,全方位剖析两者的技术差异。Kimi K2.5 以“蜂群智能”与审美编程惊艳全场,化身全能创意搭档;Qwen3-Max-Thinking 则凭深厚工程底蕴,构筑稳健…
-
从文本助手到生产力智能体——2025大模型年度测评:多模态、强推理与真交付 | 302.AI 基准实验室
导读:2025年,大语言模型完成从“文本助手”到“生产力智能体”的关键跃迁。本报告深度实测Gemini 3 Pro、Claude Opus 4.5、GPT-5.2、Grok 4.1、GLM-4.7、DeepSeek-V3.2六大旗舰模型,覆盖模型幻觉控制、复杂逻辑推理、多模态融合理解、创意生成与人类直觉、编程与工程化交付五大高难度真实场景。 评测结果显示:G…
-
懂交付,更懂质感:MiniMax M2.1 Vs. GLM 4.7 国产开源顶流对决丨302.AI 基准实验室
12 月 23 日,MiniMax 正式对外发布其新一代旗舰级 Coding & Agent 模型 MiniMax M2.1。 与许多大模型发布会执着于罗列通用知识得分不同,M2.1 这次把所有的聚光灯都打在了“编程”与“智能体”这两个关键词上,官方定位直言不讳:为真实世界的复杂任务而生。显然,这不仅仅是一次常规的版本迭代,更像是 MiniMax 在…