
deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
DeepSeek 推出的兼备高性能推理与高性价比大规模蒸馏语言模型,该模型基于 Qwen-32B 架构
2025-02-04
输入:
$0.18/1M tokens
输出:
$0.18/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
DeepSeek-R1-Distill-Qwen-32B 是 DeepSeek 推出的大规模蒸馏语言模型,核心定位为**“高性能推理与高性价比部署的平衡”**。该模型基于 Qwen-32B 架构,通过 DeepSeek-R1 的强化学习数据进行蒸馏训练,在保持适中参数量的同时,实现了接近超大规模模型的推理能力。
- 性能越级:在数学(MATH)、代码(HumanEval)及综合推理基准上,性能超越 Llama-3.1-70B 甚至部分 Mixtral-8x22B 的表现,是目前开源蒸馏模型中的佼佼者。
- 推理能力卓越:得益于 DeepSeek-R1 的高质量蒸馏数据,该模型在逻辑推理和复杂问题解决上表现出色,具备类似大模型的“思考”能力。
- 高性价比:相比千亿参数的 MoE 模型(如 DeepSeek-R1),该模型推理成本更低,显存占用更小,适合希望以较低成本获得强推理能力的企业和个人开发者。
- 双语优势:继承了 Qwen 系列对中文和英文的优秀原生支持,能够流畅处理复杂的双语任务。
───────────────────────────────────────────────────────────────────
核心能力
🚀 极速高吞吐:相比同性能级别的满血大模型,推理速度更快,延迟更低,适合对响应速度有要求的应用场景。
🧠 深度结构化推理:在数学证明和逻辑推演任务中表现优异,能够处理复杂的结构化数据和多步骤推理。
⌨️ 智能代码生成:具备强大的编程能力,能够理解复杂算法逻辑,辅助开发者进行代码生成和调试。
📉 低成本部署:作为一款稠密模型,其部署门槛远低于 MoE 架构的千亿模型,单台 80GB 显存的 GPU(如 A100/H100)即可轻松部署。
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽