LLM - - Page 4

Claude Sonnet 4.6 实测：旗舰级体验，中端级成本，能否掀翻旗舰 Opus？丨302.AI 基准实验室

文章导读： Anthropic深夜突袭，发布“史上最强Sonnet”——Claude Sonnet 4.6。这款中端模型以较高的性价比实现了接近Opus的旗舰级性能，实测显示，Sonnet 4.6 在多模态识别与办公任务中竟反向超越旗舰 Opus 4.6，但在深度逻辑推理上仍存差距。本文通过多维度基准测试与编程实战，揭秘这款“性价比新王”的真实实力，以及Op…

2026 年 3 月 2 日 • 基准实验室

2.9K00

实测 MiniMax M2.5：开源掀桌，性价比封神？先看看它交的作业丨302.AI 基准实验室

文章导读： 2月12日，MiniMax 发布最新模型 M2.5，主打编程、办公与复杂 Agent 任务，性能对标顶尖闭源模型，速度提升至 100 TPS，价格仅为竞品 1/10。通过多维度实测发现：M2.5 在代码生成与功能完整性上表现惊艳，能独立完成从需求到交互的全流程开发；但在处理模糊需求、审美判断等“人性化”场景时仍显生硬，细节打磨不足。整体而言，M2…

2026 年 2 月 26 日 • 基准实验室

5.8K00

谷歌Gemini 3.1 Pro实测：掀翻 Claude 4.6 强势登顶！能否堪称完美？丨302.AI 基准实验室

导读：谷歌于2月20日推出Gemini 3.1 Pro，以Sparse MoE架构和Deep Think深度思考模式为核心升级，支持100万Token上下文输入与64K输出上限。302.AI已接入模型API，本期实测涵盖逻辑数学、人类直觉、多模态推理及前端编程四大维度。测试结果显示，Gemini 3.1 Pro强势登顶302 Bench Lab的多模态模型…

2026 年 2 月 24 日 • 基准实验室

3.3K00

GLM-5实测：第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

12日凌晨，智谱 AI 正式发布新一代旗舰级基础模型 GLM-5——上周以“Pony Alpha”的匿名身份在OpenRouter上爆火的SOTA级神秘模型，终于露出了真容。基于官方文档，对GLM-5 模型进行总结： 📊 核心参数参数项数据模型规模 744B总参数（40B激活参数）预训练数据 28.5T tokens 前代对比 GLM-4.5: 3…

2026 年 2 月 12 日 • 基准实验室

4.0K00

Claude Opus 4.6 实测：百万上下文注入，依旧是顶级的编程脑丨302.AI 基准实验室

文章导读：2026年开年，大模型战火重燃。Anthropic重磅推出Claude Opus 4.6，在维持原价的基础上，实现了100万token上下文、编程效能与推理深度的升级。302.AI第一时间接入实测，通过逻辑、多模态及编程模拟等实测，检验其是否具备“肉眼可见”的进化。实测显示，Opus 4.6不仅在代码生成上表现出优秀的连贯性，更展现出独特的“产品架…

2026 年 2 月 9 日 • 基准实验室

4.6K00

Kimi K2.5 vs Qwen3-Max 实测：SWE-Bench 76.8%，Agent Swarm 架构全面解析 | 302.AI

文章导读：月之暗面与阿里通义接连推出 Kimi K2.5 与 Qwen3-Max-Thinking，正式打响 2026 国产大模型巅峰对决。本文基于 302.AI 的实测数据，从逻辑推理到复杂编程，全方位剖析两者的技术差异。Kimi K2.5 以“蜂群智能”与审美编程惊艳全场，化身全能创意搭档；Qwen3-Max-Thinking 则凭深厚工程底蕴，构筑稳健…

2026 年 1 月 30 日 • 基准实验室

5.7K01

从文本助手到生产力智能体——2025大模型年度测评：多模态、强推理与真交付 | 302.AI 基准实验室

导读：2025年，大语言模型完成从“文本助手”到“生产力智能体”的关键跃迁。本报告深度实测Gemini 3 Pro、Claude Opus 4.5、GPT-5.2、Grok 4.1、GLM-4.7、DeepSeek-V3.2六大旗舰模型，覆盖模型幻觉控制、复杂逻辑推理、多模态融合理解、创意生成与人类直觉、编程与工程化交付五大高难度真实场景。评测结果显示：G…

2026 年 1 月 14 日 • 基准实验室

4.9K00

懂交付，更懂质感：MiniMax M2.1 Vs. GLM 4.7 国产开源顶流对决丨302.AI 基准实验室

12 月 23 日，MiniMax 正式对外发布其新一代旗舰级 Coding & Agent 模型 MiniMax M2.1。与许多大模型发布会执着于罗列通用知识得分不同，M2.1 这次把所有的聚光灯都打在了“编程”与“智能体”这两个关键词上，官方定位直言不讳：为真实世界的复杂任务而生。显然，这不仅仅是一次常规的版本迭代，更像是 MiniMax 在…

2025 年 12 月 31 日 • 基准实验室

4.6K01

302.AI客户端：零配置，支持任意模型，最适合新手的Vibe Coding工具 | 302.AI 新品发布

在AI行业飞速发展的2025 年，最炙手可热的关键词之一绝对少不了 “Vibe Coding” 。所谓 Vibe Coding，即“氛围感编程”——你只需使用自然语言描述需求，AI 便会为你生成代码。这一变革彻底粉碎了编程的技术高墙，让每一位普通人都能跳过晦涩的编程语言，亲手打造专属应用。为Vibe Coding打造的工具也层出不穷，在 Cursor、L…

2025 年 12 月 26 日 • 新品发布

4.2K00

智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一丨302.AI 基准实验室

随着2025年接近尾声，大模型领域的竞争未见放缓，反而迎来了一波重磅更新。今日凌晨，智谱突袭发布了其新一代旗舰模型——GLM-4.7，以一系列 SOTA 表现，为今年的开源战场献上了堪称“压轴”的力作。此次更新将核心焦点投向了编码能力、长程任务规划与智能体协作，不仅在多项国际主流基准测试中横扫开源榜单，更以任务交付为核心，致力于成为开发者手中真正高效、可靠…

2025 年 12 月 23 日 • 基准实验室

8.3K00