
xiaomimimo/mimo-v2-flash
小米推出的开源通用语言模型,擅长编程与推理
2025-12-19
输入:
$0.1/1M tokens
输出:
$0.3/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
MiMo-V2-Flash 是 小米(Xiaomi) 推出的开源通用语言级 旗舰 产品,核心定位为“专为推理、编程与 Agent 场景而生”,通过独特的混合注意力架构与多令牌预测技术,在保持顶级智能的同时实现超高速度与极致低成本。
- 极速推理:采用原生 Multi-Token Prediction (MTP) 技术,实现自投机解码,推理速度高达 150 tokens/秒,响应迅速无延迟。
- 极致性价比:API 调用成本极低,是目前市场上最具成本效益的高性能模型之一。
- 顶尖编程能力:在 SWE-bench Verified 测试中得分 73.4%,位居开源模型榜首,接近 GPT-5-High 水平,支持一键生成可运行的 HTML 网页与复杂代码。
- 混合思考模式:支持“思考”与“直答”两种模式切换,既能处理复杂数学推理,也能作为日常通用助手进行流畅对话。
- 长上下文优化:采用 309B 总参数、15B 激活参数 的混合专家(MoE)架构,配合 128-token 滑动窗口注意力机制,完美支持 256k 超长上下文。
───────────────────────────────────────────────────────────────────
核心能力
💻 专业级代码生成
在 SWE-bench 等基准测试中领跑开源界。 支持 Vibe-coding 工作流,能一次性生成完整的 HTML 网页、操作系统界面及多语言代码,解决复杂的软件工程任务。
⚡ 极致速度与效率
利用 MTP 技术实现并行解码。 通过轻量级草稿模型与验证模型的配合,在不增加显存瓶颈的情况下,实现高达 2.6 倍的有效加速,兼顾高性能与低成本。
🧠 强大的混合推理
支持“思考”与“直答”模式自由切换。 基于 MOPD 后训练范式,在数学竞赛 AIME 2025 和科学知识 GPQA-Diamond 中表现优异,既能深度推理也能秒级响应。
───────────────────────────────────────────────────────────────────
模型对比
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽