
deepseek-ai/DeepSeek-R1-Distill-Qwen-14B
DeepSeek 推出的蒸馏版开源语言模型,核心定位为“高性能轻量化推理”
2025-02-04
输入:
$0.1/1M tokens
输出:
$0.1/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
DeepSeek-R1-Distill-Qwen-14B 是 DeepSeek 推出的蒸馏版开源语言模型,核心定位为**“高性能轻量化推理”**。该模型基于 Qwen-14B 架构,通过 DeepSeek-R1 的强化学习数据进行蒸馏训练,旨在以更低的成本提供接近大模型的推理能力。
- 性能强劲:在多个基准测试中,性能超越原生的 Qwen-14B 和 Llama-3.1-14B,实现了“以蒸馏小模型,搏旗舰大模型”的效果。
- 推理能力突出:得益于 DeepSeek-R1 的蒸馏数据,该模型在数学推理和代码生成等复杂任务上表现优异,逻辑思维能力显著增强。
- 高性价比:作为一款 14B 参数的模型,其推理成本远低于百亿参数级别的 MoE 模型(如 DeepSeek-R1 本身),是追求成本效益用户的理想选择。
- 双语优化:继承了 Qwen 系列对中文和英文的优秀支持,能够流畅处理双语任务。
───────────────────────────────────────────────────────────────────
核心能力
⚡ 极速响应:模型体积适中,推理速度快,适合部署在消费级显卡或云端服务器上,满足低延迟应用需求。
🧠 深度推理:在 GSM8K、MATH 等数学基准测试中表现优异,能够解决复杂的逻辑和数学问题。
⌨️ 代码生成:经过高质量代码数据训练,在 HumanEval 等测试中得分高,能够辅助开发者进行编程和调试。
📉 低成本部署:相比千亿参数的满血版大模型,该蒸馏模型在保持高性能的同时,大幅降低了硬件资源消耗和运维成本。
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽