文章导读:
2月12日,MiniMax 发布最新模型 M2.5,主打编程、办公与复杂 Agent 任务,性能对标顶尖闭源模型,速度提升至 100 TPS,价格仅为竞品 1/10。通过多维度实测发现:M2.5 在代码生成与功能完整性上表现惊艳,能独立完成从需求到交互的全流程开发;但在处理模糊需求、审美判断等“人性化”场景时仍显生硬,细节打磨不足。整体而言,M2.5 以极致性价比成为生产力场景的务实选择。
2月12日,MiniMax 正式发布其最新模型——MiniMax M2.5,以“为真实世界生产力而生”为核心定位,配合一连串登顶榜单的亮眼数据,向全球开发者展示了其在编程、办公及复杂 Agent 任务中的硬实力。

话不多说,先来看本次 M2.5 版本的亮点所在:
1.📊 性能对标顶尖闭源模型
- 编程能力:SWE-Bench Verified 80.2%,直逼 Claude Opus 4.5/4.6
- 多语言能力:Multi-SWE-Bench 51.3%,超越 Claude Opus 4.6
- Agent 能力:BrowseComp 76.3%、BFCL 76.8%,达行业顶尖水平

2.📊 效率与速度全面领先
- 100 TPS 输出速度,是其他前沿模型的2倍
- 复杂任务完成速度较上代提升 37%(SWE-Bench 从 31.3 分钟压缩至 22.8 分钟)
- 激活参数量仅 10B(总参数 230B),轻量化设计便于部署
3.📊 真实世界验证落地有效
- 在 20 万+真实环境中训练,覆盖 10+种编程语言
- MiniMax 内部 30% 任务由 M2.5 自主完成,新代码贡献率达 80%
4.📊 性价比碾压竞品
- 价格仅为 Opus、GPT-5 等模型的 1/10 至 1/20
- 连续工作一小时仅需 1 美元,1 万美元可支持 4 个实例全年无休
模型上线仅一天,全球用户便基于 M2.5 创建了超过 1 万个专属专家,生态扩张速度之快,足见其吸引力。这款号称“为生产力而生”的模型在实际任务中究竟表现如何?302.AI本期实测为你揭晓。
I. 实测模型基础信息
(1)实测模型在 302.AI 的价格:
| 模型名称 | 上下文 | 302.AI内的价格 |
| MiniMax-M2.5 | 204800 | 输入:$0.3/1M tokens输出:$1.2/1M tokens |
| MiniMax-M2.1 | 1000000 | 输入:$0.3/ 1M tokens输出:$1.2/ 1M tokens |
(2)测评目的:
本评测侧重模型对逻辑,数学,编程,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。
(3)测评方法:
本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学(共10题),人类直觉(共7题),以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。
题库地址:https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0
💡记分规则:
按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。
(4)测评工具:
- 所有模型均在302.AI Stuidio客户端内使用对应模型,使用统一的提示词,取第一次生成结果
- 编程测试使用302.AI Stuidio客户端的Vibe模式:调用Claude Code沙盒 + Skills(本期实测使用 brand-guidelines 和 frontend-design)
编程案例分数评级:
⭐⭐⭐⭐⭐ S 级(封神): 行业标杆,重新定义标准。
⭐⭐⭐⭐ A 级(卓越): 生产力合格,无明显短板。
⭐⭐⭐ B 级(优秀): 表现中规中矩,存在短板。
⭐⭐及以下 C级(不合格): 不可用,存在明显问题。
II. 测试结果总览
302.AI 题库测试结果:


302.AI 模型测评分数总榜单(剔除多模态分数):

III. 案例展示
案例 1:人类直觉
健康管理:模糊饮食调整
身体状况模糊为“偶尔疲劳,体重略超”,偏好“简单美味”,预算“中等”。请步步制定一周饮食计划:每日菜单、营养平衡、调整依据,并解释如何可持续避免反弹,不允许忽略过敏风险。
🔍 测评要点:满分需菜单列表+营养解释+可持续性;状况提取错误扣4分,无风险扣1分。多角度分析:边界如素食偏好转vegan计划,扩展到运动结合;借鉴健康AI app如营养追踪;用户意图测试模型的关怀处理,在养生中辅助模糊习惯;信息扩展:这多角度论述直觉的自我调节,如卡路里模糊估算体现代谢本能,与模糊健康数据工具类似机器学习预测,详尽讨论心理因素如动机衰减。
MiniMax M2.5 针对本案例的输出,反映出需求状态提取不足(菜单设计更多偏向减重,没有专门针对提示词“偶尔疲劳”的微量营养素);此外,只在文末提到免责申明,菜单中未提及过敏风险。

案例 2:交互式动画
在Three.js中创建一个交互式3D的8缸发动机模拟器,具备真实物理渲染与缸体半透明透视视图、实时进排气与点火动力学视觉特效、动态显示转速与扭矩的物理HUD、一键爆炸装配视图和交互式零件物料清单,以及手动油门滑块与自动怠速循环控制功能。
MiniMax M2.5 输出效果:
✅ 优势项:
- 核心功能实现良好,创建了 V8 发动机的基本结构,增加动力学粒子特效,多光源系统视觉效果。
- UI 控件完善,仪表盘设计精美,一键爆炸视图动画流畅。
❌ 缺陷:
- 物理模拟不严谨,点火随机触发,未按发火顺序。
- 模型细节处理不足,缺乏气门机构、正时皮带、链条详细结构。
MiniMax M2.1 在 SVG 仪表盘、霓虹配色等视觉设计上效果略优,但在发动机细节和物理准确性上不如 M2.5.
| 测评点 | MiniMax M2.5 | MiniMax M2.1 |
| 功能完整性 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| 视觉设计 | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| 物理模拟 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
案例 3:前端编程-小程序
我想开发一个模拟咖啡点餐的小程序,请帮我完成以下任务:
**一、项目概述**
- 类型:微信小程序(或 H5 网页应用)
- 目标用户:咖啡店顾客
- 核心功能:浏览咖啡菜单、自定义选项、加入购物车、模拟下单
**二、功能需求**
1. **菜单页面**
- 分类展示(意式咖啡、手冲、茶饮、甜品)
- 每项商品需包含:图片、名称、描述、价格、热门标签
- 点击可进入商品详情页
2. **自定义选项**
- 咖啡规格:杯型(中/大/超大)、温度(冰/热)、甜度、加料(浓缩、奶、糖浆)
- 根据选择实时计算总价
3. **购物车与订单**
- 添加商品到购物车,显示数量和小计
- 模拟下单流程(无需真实支付)
- 生成订单确认页,显示订单号、商品清单、总价、取餐码
4. **交互反馈**
- 加入购物车时弹出气泡提示音效(类似聊天气泡“噗”声)
- 按钮点击动效和状态反馈
**三、界面与设计**
- 风格:简约现代,以咖啡色系为主
- 布局:底部导航栏(首页、菜单、购物车、我的订单)
- 适配移动端,确保交互流畅
**四、技术要求**
- 使用 HTML/CSS/JavaScript(若 H5)或微信小程序语法
- 数据用 JSON 本地模拟即可,无需后端
- 代码结构清晰,注释关键逻辑
**五、输出要求**
请提供:
1. 完整的项目代码结构
2. 核心页面的代码(至少包含菜单页、商品详情页、购物车页)
3. 简单的样式设计
4. 交互提示(如音效调用方法、价格计算逻辑)
MiniMax M2.5 输出效果:
✅ 优势项:
- 完整的点单逻辑闭环:从菜单浏览→加购→结算→取餐→历史订单,完整覆盖点餐全流程,购物车数据持久化。
- 视觉和交互体验优秀:自动插图实现,各卡片功能模块化分明,自主增加了“今日特惠”类Banner部分。
- 订单系统完整:订单状态管理明确(待取餐/已完成),新增再来一单功能。
❌ 缺陷:
- 缺少加载状态:页面切换、提交订单时无加载指示。
案例 4:3D场景原型
核心需求: 用Three.js制作一个日式禅意庭院3D场景,包含所有代码的一个HTML文件。
场景包含:
建筑:木亭(方柱+圆柱组合)、沙地(带细微纹路)、石水钵、鹅卵石小径
植物:3-4棵简化樱花树(锥体+球体组合),有飘落花瓣
氛围:月光方向光、灯笼点光源、淡雾、可调日夜循环
动画:水面波动、花瓣飘落
交互:鼠标旋转缩放视角,dat.GUI调整参数
要求:用内置几何体,代码简洁直接运行。
MiniMax M2.5 输出效果较 M2.1 来说有提升,但缺陷仍明显。
✅ 优势项:
- 材质细节更完善:建筑和植物的组合图形更复杂和具有层次感,方向光的实现更明显,使用色调映射提升昼夜变化显示。
❌ 缺陷:
- 沙地纹理过于简单,只有随机顶点位移,缺乏视觉纹理。
- 阴影质量不够细节,视觉上较为锐利、显色过重。

附 MiniMax M2.1 输出效果:

| 测评点 | MiniMax M2.5 | MiniMax M2.1 |
| 功能完整性 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 材质表现 | ⭐⭐⭐⭐ | ⭐⭐ |
| 视觉质量 | ⭐⭐⭐ | ⭐⭐ |
IV. MiniMax M2.5 模型实测结论

综合多维度实测表现,MiniMax M2.5 在编程、生产力及复杂 Agent 任务上展现出极强的实战价值,以扎实的编程表现证明了其”为真实世界生产力而生”并非空话。其核心优势与短板在哪里?以下三点即可清晰概括:
1.编程提升,代码一次交付
这是 M2.5 最让人惊喜的地方,不仅仅满足于代码能跑,而是追求是否能用。在案例 3 的咖啡点餐小程序制作中,这种优势体现得淋漓尽致。同样是开发点餐系统:
- M2.1 做到了基础功能,但订单状态管理缺失,购物车数据不持久;
- M2.5 却一口气完成了从菜单浏览→加购→结算→取餐→历史订单的完整闭环,还主动增加了”今日特惠”Banner、取餐状态变化、”再来一单”等增值功能——这些功能用户根本没提,但它自己主动“多想了一步”。
在案例 2 的 V8 发动机模拟器中,尽管物理细节仍有瑕疵,但多光源系统、仪表盘 UI、一键视图的整合能力,已展现出全栈开发的潜力。
✅ 因此,对于需要快速产出可用原型的场景,M2.5 能独立完成从需求分析到交互闭环的全流程,省去大量二次修补的精力。对比 M2.1,功能完整度从 B 级跃升至 S 级,代际进步肉眼可见。
2. 人类直觉与审美仍是短板
M2.5 的短板同样明显——它像个典型的实用主义者,它能给你打造一套结构扎实、榫卯严丝合缝的实木家具,但你要问他怎么雕花才好看、怎么上漆才显档次,它就挠头了。
最典型的是健康管理案例。面对“偶尔疲劳,体重略超”的模糊需求,M2.5直接套用了通用减重方案,菜单设计里找不到针对“抗疲劳”的微量元素调整,也忽略了过敏风险评估。它的回答逻辑清晰、结构完整,但就是少了点“人味儿”。在3D日式庭院场景中,沙地纹理过于简单、阴影细节粗糙,视觉层面的处理与顶尖闭源模型存在明显差距。
✅ 高分的工程能力,却被”细腻度”拖了后腿。在处理需要同理心、审美判断或模糊信息挖掘的任务时,它可能听不懂你的“弦外之音”,最好还是亲自把关细节。
3.速度与价格的双重降维优势
这是 M2.5 最无法被忽视的优势。100 TPS 输出速度、复杂任务提速 37%,这意味着你可以用 1 美元让 M2.5 连续工作一小时,用 1 万美元让 4 个实例全年无休——这在以前是不可想象的。
✅ M2.5 并不完美,它在直觉、审美、细节打磨上仍有提升空间。但它的核心竞争力在于:在编程、逻辑、工具调用等“生产力”核心指标上,用闭源 1/10 的价格,买到了 80% 的战斗力。
这对于务实的开发者而言,吸引力不言而喻。
模型上线仅一天便诞生 1 万+专属专家,足见开发者对其青睐程度之高。
V. 如何在 302.AI 上使用
1. 使用302.AI客户端
步骤指引:对话框内选择模型菜单

输入minimax即可获取调用

2. 聊天机器人中使用
步骤指引 :应用超市→聊天机器人→立即体验
选择模型:国产模型→MiniMax-M2.5→确认

3. 使用模型 API
步骤指引:API超市→语言大模型→Minimax→MiniMax-M2.5


点击【立即体验】在线调用 API

想即刻体验 MiniMax M2.5 模型?
👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手
