企业级AI资源平台 - 302.AI | 按用量付费，全模型API接入，应用在线使用

sophnet/MiMo-V2-Flash

小米推出的开源通用语言模型，擅长编程与推理

2025-12-12

语言大模型

输入:

$0.1/1M tokens

输出:

$0.3/1M tokens

大额采购联系客户经理享专属优惠

API介绍

MiMo-V2-Flash 是小米（Xiaomi）推出的开源通用语言级旗舰产品，核心定位为“专为推理、编程与 Agent 场景而生”，通过独特的混合注意力架构与多令牌预测技术，在保持顶级智能的同时实现超高速度与极致低成本。

极速推理：采用原生 Multi-Token Prediction (MTP) 技术，实现自投机解码，推理速度高达 150 tokens/秒，响应迅速无延迟。
极致性价比：API 调用成本极低，是目前市场上最具成本效益的高性能模型之一。
顶尖编程能力：在 SWE-bench Verified 测试中得分 73.4%，位居开源模型榜首，接近 GPT-5-High 水平，支持一键生成可运行的 HTML 网页与复杂代码。
混合思考模式：支持“思考”与“直答”两种模式切换，既能处理复杂数学推理，也能作为日常通用助手进行流畅对话。
长上下文优化：采用 309B 总参数、15B 激活参数 的混合专家（MoE）架构，配合 128-token 滑动窗口注意力机制，完美支持 256k 超长上下文。

───────────────────────────────────────────────────────────────────

核心能力

💻 专业级代码生成

在 SWE-bench 等基准测试中领跑开源界。支持 Vibe-coding 工作流，能一次性生成完整的 HTML 网页、操作系统界面及多语言代码，解决复杂的软件工程任务。

⚡ 极致速度与效率

利用 MTP 技术实现并行解码。通过轻量级草稿模型与验证模型的配合，在不增加显存瓶颈的情况下，实现高达 2.6 倍的有效加速，兼顾高性能与低成本。

🧠 强大的混合推理

支持“思考”与“直答”模式自由切换。基于 MOPD 后训练范式，在数学竞赛 AIME 2025 和科学知识 GPQA-Diamond 中表现优异，既能深度推理也能秒级响应。

模型对比

Playground

登录后，探索更多精彩功能！点击登录

API统计

API列表 (1)

API描述	接口地址	请求方法	稳定性	参数说明
Chat（SophNet）	https://api.302.ai/v1/chat/completions	POST	稳定	查看详情
暂无数据

API价格表

$￥円 ₽

模型	说明	上下文	官网原价	302.AI价格