实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室

文章导读:
2月12日,MiniMax 发布最新模型 M2.5,主打编程、办公与复杂 Agent 任务,性能对标顶尖闭源模型,速度提升至 100 TPS,价格仅为竞品 1/10。通过多维度实测发现:M2.5 在代码生成与功能完整性上表现惊艳,能独立完成从需求到交互的全流程开发;但在处理模糊需求、审美判断等“人性化”场景时仍显生硬,细节打磨不足。整体而言,M2.5 以极致性价比成为生产力场景的务实选择。

2月12日,MiniMax 正式发布其最新模型——MiniMax M2.5,以“为真实世界生产力而生”为核心定位,配合一连串登顶榜单的亮眼数据,向全球开发者展示了其在编程、办公及复杂 Agent 任务中的硬实力。

实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室

话不多说,先来看本次 M2.5 版本的亮点所在:

1.📊 性能对标顶尖闭源模型

  • 编程能力:SWE-Bench Verified 80.2%,直逼 Claude Opus 4.5/4.6
  • 多语言能力:Multi-SWE-Bench 51.3%,超越 Claude Opus 4.6
  • Agent 能力:BrowseComp 76.3%、BFCL 76.8%,达行业顶尖水平
实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室

2.📊 效率与速度全面领先

  • 100 TPS 输出速度,是其他前沿模型的2倍
  • 复杂任务完成速度较上代提升 37%(SWE-Bench 从 31.3 分钟压缩至 22.8 分钟)
  • 激活参数量仅 10B(总参数 230B),轻量化设计便于部署

3.📊 真实世界验证落地有效

  • 在 20 万+真实环境中训练,覆盖 10+种编程语言
  • MiniMax 内部 30% 任务由 M2.5 自主完成,新代码贡献率达 80%

4.📊 性价比碾压竞品

  • 价格仅为 Opus、GPT-5 等模型的 1/10 至 1/20
  • 连续工作一小时仅需 1 美元,1 万美元可支持 4 个实例全年无休

模型上线仅一天,全球用户便基于 M2.5 创建了超过 1 万个专属专家,生态扩张速度之快,足见其吸引力。这款号称“为生产力而生”的模型在实际任务中究竟表现如何?302.AI本期实测为你揭晓。


I. 实测模型基础信息

(1)实测模型在 302.AI 的价格:

模型名称上下文302.AI内的价格
MiniMax-M2.5204800输入:$0.3/1M tokens输出:$1.2/1M tokens
MiniMax-M2.11000000输入:$0.3/ 1M tokens输出:$1.2/ 1M tokens

(2)测评目的:

本评测侧重模型对逻辑,数学,编程,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。

(3)测评方法:

本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学(共10题),人类直觉(共7题),以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。

题库地址:https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0

💡记分规则:

按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。

(4)测评工具:

  • 所有模型均在302.AI Stuidio客户端内使用对应模型,使用统一的提示词,取第一次生成结果
  • 编程测试使用302.AI Stuidio客户端的Vibe模式:调用Claude Code沙盒 + Skills(本期实测使用 brand-guidelines 和 frontend-design)

编程案例分数评级:

⭐⭐⭐⭐⭐ S 级(封神): 行业标杆,重新定义标准。

⭐⭐⭐⭐ A 级(卓越): 生产力合格,无明显短板。

⭐⭐⭐ B 级(优秀): 表现中规中矩,存在短板。

⭐⭐及以下 C级(不合格): 不可用,存在明显问题。


II. 测试结果总览

302.AI 题库测试结果:

实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室
实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室

302.AI 模型测评分数总榜单(剔除多模态分数):

实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室

III. 案例展示

案例 1:人类直觉

健康管理:模糊饮食调整
身体状况模糊为“偶尔疲劳,体重略超”,偏好“简单美味”,预算“中等”。请步步制定一周饮食计划:每日菜单、营养平衡、调整依据,并解释如何可持续避免反弹,不允许忽略过敏风险。

🔍 测评要点:满分需菜单列表+营养解释+可持续性;状况提取错误扣4分,无风险扣1分。多角度分析:边界如素食偏好转vegan计划,扩展到运动结合;借鉴健康AI app如营养追踪;用户意图测试模型的关怀处理,在养生中辅助模糊习惯;信息扩展:这多角度论述直觉的自我调节,如卡路里模糊估算体现代谢本能,与模糊健康数据工具类似机器学习预测,详尽讨论心理因素如动机衰减

MiniMax M2.5 针对本案例的输出,反映出需求状态提取不足(菜单设计更多偏向减重,没有专门针对提示词“偶尔疲劳”的微量营养素);此外,只在文末提到免责申明,菜单中未提及过敏风险。

实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室

案例 2:交互式动画

在Three.js中创建一个交互式3D的8缸发动机模拟器,具备真实物理渲染与缸体半透明透视视图、实时进排气与点火动力学视觉特效、动态显示转速与扭矩的物理HUD、一键爆炸装配视图和交互式零件物料清单,以及手动油门滑块与自动怠速循环控制功能。

MiniMax M2.5 输出效果:

✅ 优势项:

  • 核心功能实现良好,创建了 V8 发动机的基本结构,增加动力学粒子特效,多光源系统视觉效果。
  • UI 控件完善,仪表盘设计精美,一键爆炸视图动画流畅。

❌ 缺陷:

  • 物理模拟不严谨,点火随机触发,未按发火顺序。
  • 模型细节处理不足,缺乏气门机构、正时皮带、链条详细结构。

MiniMax M2.1 在 SVG 仪表盘、霓虹配色等视觉设计上效果略优,但在发动机细节和物理准确性上不如 M2.5.

测评点MiniMax M2.5MiniMax M2.1
功能完整性⭐⭐⭐⭐⭐⭐⭐⭐
视觉设计⭐⭐⭐⭐⭐⭐⭐
物理模拟⭐⭐⭐⭐⭐⭐⭐

案例 3:前端编程-小程序

我想开发一个模拟咖啡点餐的小程序,请帮我完成以下任务:

**一、项目概述**
- 类型:微信小程序(或 H5 网页应用)
- 目标用户:咖啡店顾客
- 核心功能:浏览咖啡菜单、自定义选项、加入购物车、模拟下单

**二、功能需求**
1. **菜单页面**
   - 分类展示(意式咖啡、手冲、茶饮、甜品)
   - 每项商品需包含:图片、名称、描述、价格、热门标签
   - 点击可进入商品详情页

2. **自定义选项**
   - 咖啡规格:杯型(中/大/超大)、温度(冰/热)、甜度、加料(浓缩、奶、糖浆)
   - 根据选择实时计算总价

3. **购物车与订单**
   - 添加商品到购物车,显示数量和小计
   - 模拟下单流程(无需真实支付)
   - 生成订单确认页,显示订单号、商品清单、总价、取餐码

4. **交互反馈**
   - 加入购物车时弹出气泡提示音效(类似聊天气泡“噗”声)
   - 按钮点击动效和状态反馈

**三、界面与设计**
- 风格:简约现代,以咖啡色系为主
- 布局:底部导航栏(首页、菜单、购物车、我的订单)
- 适配移动端,确保交互流畅

**四、技术要求**
- 使用 HTML/CSS/JavaScript(若 H5)或微信小程序语法
- 数据用 JSON 本地模拟即可,无需后端
- 代码结构清晰,注释关键逻辑

**五、输出要求**
请提供:
1. 完整的项目代码结构
2. 核心页面的代码(至少包含菜单页、商品详情页、购物车页)
3. 简单的样式设计
4. 交互提示(如音效调用方法、价格计算逻辑)

MiniMax M2.5 输出效果:

✅ 优势项:

  • 完整的点单逻辑闭环:从菜单浏览→加购→结算→取餐→历史订单,完整覆盖点餐全流程,购物车数据持久化。
  • 视觉和交互体验优秀:自动插图实现,各卡片功能模块化分明,自主增加了“今日特惠”类Banner部分。
  • 订单系统完整:订单状态管理明确(待取餐/已完成),新增再来一单功能。

❌ 缺陷:

  • 缺少加载状态:页面切换、提交订单时无加载指示。

案例 4:3D场景原型

核心需求: 用Three.js制作一个日式禅意庭院3D场景,包含所有代码的一个HTML文件。
场景包含:
建筑:木亭(方柱+圆柱组合)、沙地(带细微纹路)、石水钵、鹅卵石小径
植物:3-4棵简化樱花树(锥体+球体组合),有飘落花瓣
氛围:月光方向光、灯笼点光源、淡雾、可调日夜循环
动画:水面波动、花瓣飘落
交互:鼠标旋转缩放视角,dat.GUI调整参数
要求:用内置几何体,代码简洁直接运行。

MiniMax M2.5 输出效果较 M2.1 来说有提升,但缺陷仍明显。

✅ 优势项:

  • 材质细节更完善:建筑和植物的组合图形更复杂和具有层次感,方向光的实现更明显,使用色调映射提升昼夜变化显示。

❌ 缺陷:

  • 沙地纹理过于简单,只有随机顶点位移,缺乏视觉纹理。
  • 阴影质量不够细节,视觉上较为锐利、显色过重。
实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室

附 MiniMax M2.1 输出效果:

实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室
测评点MiniMax M2.5MiniMax M2.1
功能完整性⭐⭐⭐⭐⭐⭐⭐⭐
材质表现⭐⭐⭐⭐⭐⭐
视觉质量⭐⭐⭐⭐⭐

IV. MiniMax M2.5 模型实测结论

实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室

综合多维度实测表现,MiniMax M2.5 在编程、生产力及复杂 Agent 任务上展现出极强的实战价值,以扎实的编程表现证明了其”为真实世界生产力而生”并非空话。其核心优势与短板在哪里?以下三点即可清晰概括:

1.编程提升,代码一次交付

这是 M2.5 最让人惊喜的地方,不仅仅满足于代码能跑,而是追求是否能用。在案例 3 的咖啡点餐小程序制作中,这种优势体现得淋漓尽致。同样是开发点餐系统:

  • M2.1 做到了基础功能,但订单状态管理缺失,购物车数据不持久;
  • M2.5 却一口气完成了从菜单浏览→加购→结算→取餐→历史订单的完整闭环,还主动增加了”今日特惠”Banner、取餐状态变化、”再来一单”等增值功能——这些功能用户根本没提,但它自己主动“多想了一步”。

在案例 2 的 V8 发动机模拟器中,尽管物理细节仍有瑕疵,但多光源系统、仪表盘 UI、一键视图的整合能力,已展现出全栈开发的潜力。

✅ 因此,对于需要快速产出可用原型的场景,M2.5 能独立完成从需求分析到交互闭环的全流程,省去大量二次修补的精力。对比 M2.1,功能完整度从 B 级跃升至 S 级,代际进步肉眼可见。

2. 人类直觉与审美仍是短板

M2.5 的短板同样明显——它像个典型的实用主义者,它能给你打造一套结构扎实、榫卯严丝合缝的实木家具,但你要问他怎么雕花才好看、怎么上漆才显档次,它就挠头了。

最典型的是健康管理案例。面对“偶尔疲劳,体重略超”的模糊需求,M2.5直接套用了通用减重方案,菜单设计里找不到针对“抗疲劳”的微量元素调整,也忽略了过敏风险评估。它的回答逻辑清晰、结构完整,但就是少了点“人味儿”。在3D日式庭院场景中,沙地纹理过于简单、阴影细节粗糙,视觉层面的处理与顶尖闭源模型存在明显差距。

✅ 高分的工程能力,却被”细腻度”拖了后腿。在处理需要同理心、审美判断或模糊信息挖掘的任务时,它可能听不懂你的“弦外之音”,最好还是亲自把关细节。

3.速度与价格的双重降维优势

这是 M2.5 最无法被忽视的优势。100 TPS 输出速度、复杂任务提速 37%,这意味着你可以用 1 美元让 M2.5 连续工作一小时,用 1 万美元让 4 个实例全年无休——这在以前是不可想象的。

✅ M2.5 并不完美,它在直觉、审美、细节打磨上仍有提升空间。但它的核心竞争力在于:在编程、逻辑、工具调用等“生产力”核心指标上,用闭源 1/10 的价格,买到了 80% 的战斗力。

这对于务实的开发者而言,吸引力不言而喻。

模型上线仅一天便诞生 1 万+专属专家,足见开发者对其青睐程度之高。


V. 如何在 302.AI 上使用

1. 使用302.AI客户端

步骤指引:对话框内选择模型菜单

实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室

输入minimax即可获取调用

实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室

2. 聊天机器人中使用

步骤指引 :应用超市→聊天机器人→立即体验

选择模型:国产模型→MiniMax-M2.5→确认

实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室

3. 使用模型 API

步骤指引:API超市→语言大模型→Minimax→MiniMax-M2.5

实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室
实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室

点击【立即体验】在线调用 API

实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室

想即刻体验 MiniMax M2.5 模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

实测 MiniMax M2.5:开源掀桌,性价比封神?先看看它交的作业丨302.AI 基准实验室
All Rights Reserved by 302.AI
喜欢 (0)
302.AI302.AI
上一页 2026 年 2 月 24 日 下午6:42
下一页 2026 年 2 月 27 日 下午6:41

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注