实测 MiniMax M2.5：开源掀桌，性价比封神？先看看它交的作业丨302.AI 基准实验室 -

I. 实测模型基础信息
II. 测试结果总览
- 302.AI 题库测试结果：
- 302.AI 模型测评分数总榜单（剔除多模态分数）：
III. 案例展示
IV. MiniMax M2.5 模型实测结论
V. 如何在 302.AI 上使用

文章导读：
2月12日，MiniMax 发布最新模型 M2.5，主打编程、办公与复杂 Agent 任务，性能对标顶尖闭源模型，速度提升至 100 TPS，价格仅为竞品 1/10。通过多维度实测发现：M2.5 在代码生成与功能完整性上表现惊艳，能独立完成从需求到交互的全流程开发；但在处理模糊需求、审美判断等“人性化”场景时仍显生硬，细节打磨不足。整体而言，M2.5 以极致性价比成为生产力场景的务实选择。

2月12日，MiniMax 正式发布其最新模型——MiniMax M2.5，以“为真实世界生产力而生”为核心定位，配合一连串登顶榜单的亮眼数据，向全球开发者展示了其在编程、办公及复杂 Agent 任务中的硬实力。

实测 MiniMax M2.5：开源掀桌，性价比封神？先看看它交的作业丨302.AI 基准实验室

话不多说，先来看本次 M2.5 版本的亮点所在：

1.📊 性能对标顶尖闭源模型

编程能力：SWE-Bench Verified 80.2%，直逼 Claude Opus 4.5/4.6
多语言能力：Multi-SWE-Bench 51.3%，超越 Claude Opus 4.6
Agent 能力：BrowseComp 76.3%、BFCL 76.8%，达行业顶尖水平

2.📊 效率与速度全面领先

100 TPS 输出速度，是其他前沿模型的2倍
复杂任务完成速度较上代提升 37%（SWE-Bench 从 31.3 分钟压缩至 22.8 分钟）
激活参数量仅 10B（总参数 230B），轻量化设计便于部署

3.📊 真实世界验证落地有效

在 20 万+真实环境中训练，覆盖 10+种编程语言
MiniMax 内部 30% 任务由 M2.5 自主完成，新代码贡献率达 80%

4.📊 性价比碾压竞品

价格仅为 Opus、GPT-5 等模型的 1/10 至 1/20
连续工作一小时仅需 1 美元，1 万美元可支持 4 个实例全年无休

模型上线仅一天，全球用户便基于 M2.5 创建了超过 1 万个专属专家，生态扩张速度之快，足见其吸引力。这款号称“为生产力而生”的模型在实际任务中究竟表现如何？302.AI本期实测为你揭晓。

I. 实测模型基础信息

（1）实测模型在 302.AI 的价格：

模型名称	上下文	302.AI内的价格
MiniMax-M2.5	204800	输入：$0.3/1M tokens输出：$1.2/1M tokens
MiniMax-M2.1	1000000	输入：$0.3/ 1M tokens输出：$1.2/ 1M tokens

（2）测评目的：

本评测侧重模型对逻辑，数学，编程，人类直觉等问题的测试，非专业前沿领域的权威测试。旨在观察对比模型的进化趋势，提供选型参考。

（3）测评方法：

本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学（共10题），人类直觉（共7题），以及编程模拟（共12题）进行案例测试，对应记分规则取最终结果，下文选取代表性案例进行展示。

题库地址：https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0

💡记分规则：

按满分10分记分，设定对应扣分标准，最终取每轮得分的平均值。

（4）测评工具：

所有模型均在302.AI Stuidio客户端内使用对应模型，使用统一的提示词，取第一次生成结果
编程测试使用302.AI Stuidio客户端的Vibe模式：调用Claude Code沙盒 + Skills（本期实测使用 brand-guidelines 和 frontend-design）

编程案例分数评级：

⭐⭐⭐⭐⭐ S 级（封神）：行业标杆，重新定义标准。

⭐⭐⭐⭐ A 级（卓越）：生产力合格，无明显短板。

⭐⭐⭐ B 级（优秀）：表现中规中矩，存在短板。

⭐⭐及以下 C级（不合格）：不可用，存在明显问题。

II. 测试结果总览

302.AI 题库测试结果：

302.AI 模型测评分数总榜单（剔除多模态分数）：

III. 案例展示

案例 1：人类直觉

健康管理：模糊饮食调整
身体状况模糊为“偶尔疲劳，体重略超”，偏好“简单美味”，预算“中等”。请步步制定一周饮食计划：每日菜单、营养平衡、调整依据，并解释如何可持续避免反弹，不允许忽略过敏风险。

🔍 测评要点：满分需菜单列表+营养解释+可持续性；状况提取错误扣4分，无风险扣1分。多角度分析：边界如素食偏好转vegan计划，扩展到运动结合；借鉴健康AI app如营养追踪；用户意图测试模型的关怀处理，在养生中辅助模糊习惯；信息扩展：这多角度论述直觉的自我调节，如卡路里模糊估算体现代谢本能，与模糊健康数据工具类似机器学习预测，详尽讨论心理因素如动机衰减。

MiniMax M2.5 针对本案例的输出，反映出需求状态提取不足（菜单设计更多偏向减重，没有专门针对提示词“偶尔疲劳”的微量营养素）；此外，只在文末提到免责申明，菜单中未提及过敏风险。

案例 2：交互式动画

在Three.js中创建一个交互式3D的8缸发动机模拟器，具备真实物理渲染与缸体半透明透视视图、实时进排气与点火动力学视觉特效、动态显示转速与扭矩的物理HUD、一键爆炸装配视图和交互式零件物料清单，以及手动油门滑块与自动怠速循环控制功能。

MiniMax M2.5 输出效果：

✅ 优势项：

核心功能实现良好，创建了 V8 发动机的基本结构，增加动力学粒子特效，多光源系统视觉效果。
UI 控件完善，仪表盘设计精美，一键爆炸视图动画流畅。

❌ 缺陷：

物理模拟不严谨，点火随机触发，未按发火顺序。
模型细节处理不足，缺乏气门机构、正时皮带、链条详细结构。

MiniMax M2.1 在 SVG 仪表盘、霓虹配色等视觉设计上效果略优，但在发动机细节和物理准确性上不如 M2.5.

测评点	MiniMax M2.5	MiniMax M2.1
功能完整性	⭐⭐⭐⭐⭐	⭐⭐⭐
视觉设计	⭐⭐⭐	⭐⭐⭐⭐
物理模拟	⭐⭐⭐⭐	⭐⭐⭐

案例 3：前端编程-小程序

我想开发一个模拟咖啡点餐的小程序，请帮我完成以下任务：

**一、项目概述**
- 类型：微信小程序（或 H5 网页应用）
- 目标用户：咖啡店顾客
- 核心功能：浏览咖啡菜单、自定义选项、加入购物车、模拟下单

**二、功能需求**
1. **菜单页面**
   - 分类展示（意式咖啡、手冲、茶饮、甜品）
   - 每项商品需包含：图片、名称、描述、价格、热门标签
   - 点击可进入商品详情页

2. **自定义选项**
   - 咖啡规格：杯型（中/大/超大）、温度（冰/热）、甜度、加料（浓缩、奶、糖浆）
   - 根据选择实时计算总价

3. **购物车与订单**
   - 添加商品到购物车，显示数量和小计
   - 模拟下单流程（无需真实支付）
   - 生成订单确认页，显示订单号、商品清单、总价、取餐码

4. **交互反馈**
   - 加入购物车时弹出气泡提示音效（类似聊天气泡“噗”声）
   - 按钮点击动效和状态反馈

**三、界面与设计**
- 风格：简约现代，以咖啡色系为主
- 布局：底部导航栏（首页、菜单、购物车、我的订单）
- 适配移动端，确保交互流畅

**四、技术要求**
- 使用 HTML/CSS/JavaScript（若 H5）或微信小程序语法
- 数据用 JSON 本地模拟即可，无需后端
- 代码结构清晰，注释关键逻辑

**五、输出要求**
请提供：
1. 完整的项目代码结构
2. 核心页面的代码（至少包含菜单页、商品详情页、购物车页）
3. 简单的样式设计
4. 交互提示（如音效调用方法、价格计算逻辑）

MiniMax M2.5 输出效果：

✅ 优势项：

完整的点单逻辑闭环：从菜单浏览→加购→结算→取餐→历史订单，完整覆盖点餐全流程，购物车数据持久化。
视觉和交互体验优秀：自动插图实现，各卡片功能模块化分明，自主增加了“今日特惠”类Banner部分。
订单系统完整：订单状态管理明确（待取餐/已完成），新增再来一单功能。

❌ 缺陷：

缺少加载状态：页面切换、提交订单时无加载指示。

案例 4：3D场景原型

核心需求： 用Three.js制作一个日式禅意庭院3D场景，包含所有代码的一个HTML文件。
场景包含：
建筑：木亭（方柱+圆柱组合）、沙地（带细微纹路）、石水钵、鹅卵石小径
植物：3-4棵简化樱花树（锥体+球体组合），有飘落花瓣
氛围：月光方向光、灯笼点光源、淡雾、可调日夜循环
动画：水面波动、花瓣飘落
交互：鼠标旋转缩放视角，dat.GUI调整参数
要求：用内置几何体，代码简洁直接运行。

MiniMax M2.5 输出效果较 M2.1 来说有提升，但缺陷仍明显。

✅ 优势项：

材质细节更完善：建筑和植物的组合图形更复杂和具有层次感，方向光的实现更明显，使用色调映射提升昼夜变化显示。

❌ 缺陷：

沙地纹理过于简单，只有随机顶点位移，缺乏视觉纹理。
阴影质量不够细节，视觉上较为锐利、显色过重。

附 MiniMax M2.1 输出效果：

测评点	MiniMax M2.5	MiniMax M2.1
功能完整性	⭐⭐⭐⭐	⭐⭐⭐⭐
材质表现	⭐⭐⭐⭐	⭐⭐
视觉质量	⭐⭐⭐	⭐⭐

IV. MiniMax M2.5 模型实测结论

综合多维度实测表现，MiniMax M2.5 在编程、生产力及复杂 Agent 任务上展现出极强的实战价值，以扎实的编程表现证明了其”为真实世界生产力而生”并非空话。其核心优势与短板在哪里？以下三点即可清晰概括：

1.编程提升，代码一次交付

这是 M2.5 最让人惊喜的地方，不仅仅满足于代码能跑，而是追求是否能用。在案例 3 的咖啡点餐小程序制作中，这种优势体现得淋漓尽致。同样是开发点餐系统：

M2.1 做到了基础功能，但订单状态管理缺失，购物车数据不持久；
M2.5 却一口气完成了从菜单浏览→加购→结算→取餐→历史订单的完整闭环，还主动增加了”今日特惠”Banner、取餐状态变化、”再来一单”等增值功能——这些功能用户根本没提，但它自己主动“多想了一步”。

在案例 2 的 V8 发动机模拟器中，尽管物理细节仍有瑕疵，但多光源系统、仪表盘 UI、一键视图的整合能力，已展现出全栈开发的潜力。

✅ 因此，对于需要快速产出可用原型的场景，M2.5 能独立完成从需求分析到交互闭环的全流程，省去大量二次修补的精力。对比 M2.1，功能完整度从 B 级跃升至 S 级，代际进步肉眼可见。

2. 人类直觉与审美仍是短板

M2.5 的短板同样明显——它像个典型的实用主义者，它能给你打造一套结构扎实、榫卯严丝合缝的实木家具，但你要问他怎么雕花才好看、怎么上漆才显档次，它就挠头了。

最典型的是健康管理案例。面对“偶尔疲劳，体重略超”的模糊需求，M2.5直接套用了通用减重方案，菜单设计里找不到针对“抗疲劳”的微量元素调整，也忽略了过敏风险评估。它的回答逻辑清晰、结构完整，但就是少了点“人味儿”。在3D日式庭院场景中，沙地纹理过于简单、阴影细节粗糙，视觉层面的处理与顶尖闭源模型存在明显差距。

✅ 高分的工程能力，却被”细腻度”拖了后腿。在处理需要同理心、审美判断或模糊信息挖掘的任务时，它可能听不懂你的“弦外之音”，最好还是亲自把关细节。

3.速度与价格的双重降维优势

这是 M2.5 最无法被忽视的优势。100 TPS 输出速度、复杂任务提速 37%，这意味着你可以用 1 美元让 M2.5 连续工作一小时，用 1 万美元让 4 个实例全年无休——这在以前是不可想象的。

✅ M2.5 并不完美，它在直觉、审美、细节打磨上仍有提升空间。但它的核心竞争力在于：在编程、逻辑、工具调用等“生产力”核心指标上，用闭源 1/10 的价格，买到了 80% 的战斗力。

这对于务实的开发者而言，吸引力不言而喻。

模型上线仅一天便诞生 1 万+专属专家，足见开发者对其青睐程度之高。

V. 如何在 302.AI 上使用

1. 使用302.AI客户端

步骤指引：对话框内选择模型菜单

输入minimax即可获取调用

2. 聊天机器人中使用

步骤指引：应用超市→聊天机器人→立即体验

选择模型：国产模型→MiniMax-M2.5→确认

3. 使用模型 API

步骤指引：API超市→语言大模型→Minimax→MiniMax-M2.5

点击【立即体验】在线调用 API

想即刻体验 MiniMax M2.5 模型？

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

实测 MiniMax M2.5：开源掀桌，性价比封神？先看看它交的作业丨302.AI 基准实验室

I. 实测模型基础信息

（1）实测模型在 302.AI 的价格：

（2）测评目的：

（3）测评方法：

（4）测评工具：

II. 测试结果总览

302.AI 题库测试结果：

302.AI 模型测评分数总榜单（剔除多模态分数）：

III. 案例展示

案例 1：人类直觉

案例 2：交互式动画

案例 3：前端编程-小程序

案例 4：3D场景原型

IV. MiniMax M2.5 模型实测结论

1.编程提升，代码一次交付

2. 人类直觉与审美仍是短板

3.速度与价格的双重降维优势

V. 如何在 302.AI 上使用

1. 使用302.AI客户端

2. 聊天机器人中使用

3. 使用模型 API

相关推荐

Kimi K2.7 Code 实测：告别过度思考，Token 消耗锐减 30%丨302.AI 基准实验室

GLM-5.2 实测：开源新皇，国产模型里离Opus最近的一个丨302.AI 基准实验室

最强公开模型 Claude Fable 5 实测：神坛之上，也有短板丨302.AI 基准实验室

30天限免开启，Step 3.7 Flash实测：不惊艳但顺手，Agent不用省着用了丨302.AI 基准实验室

发表回复