deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

DeepSeek 推出的兼备高性能推理与高性价比大规模蒸馏语言模型,该模型基于 Qwen-32B 架构
2025-02-04
语言大模型
Model capability: function_call
输入:
$0.18/1M tokens
输出:
$0.18/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

DeepSeek-R1-Distill-Qwen-32B 是 DeepSeek 推出的大规模蒸馏语言模型,核心定位为**“高性能推理与高性价比部署的平衡”**。该模型基于 Qwen-32B 架构,通过 DeepSeek-R1 的强化学习数据进行蒸馏训练,在保持适中参数量的同时,实现了接近超大规模模型的推理能力。

  • 性能越级:在数学(MATH)、代码(HumanEval)及综合推理基准上,性能超越 Llama-3.1-70B 甚至部分 Mixtral-8x22B 的表现,是目前开源蒸馏模型中的佼佼者。
  • 推理能力卓越:得益于 DeepSeek-R1 的高质量蒸馏数据,该模型在逻辑推理和复杂问题解决上表现出色,具备类似大模型的“思考”能力。
  • 高性价比:相比千亿参数的 MoE 模型(如 DeepSeek-R1),该模型推理成本更低,显存占用更小,适合希望以较低成本获得强推理能力的企业和个人开发者。
  • 双语优势:继承了 Qwen 系列对中文和英文的优秀原生支持,能够流畅处理复杂的双语任务。

───────────────────────────────────────────────────────────────────

核心能力

🚀 极速高吞吐:相比同性能级别的满血大模型,推理速度更快,延迟更低,适合对响应速度有要求的应用场景。

🧠 深度结构化推理:在数学证明和逻辑推演任务中表现优异,能够处理复杂的结构化数据和多步骤推理。

⌨️ 智能代码生成:具备强大的编程能力,能够理解复杂算法逻辑,辅助开发者进行代码生成和调试。

📉 低成本部署:作为一款稠密模型,其部署门槛远低于 MoE 架构的千亿模型,单台 80GB 显存的 GPU(如 A100/H100)即可轻松部署。

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(硅基流动)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

-
64000

输入$0.18 / 1M tokens
输出$0.18 / 1M tokens

输入$0.18/ 1M tokens
输出$0.18/ 1M tokens
原价