deepseek-v3

deepseek-v3

混合专家(MoE)架构的超大语言模型
2024-12-26
语言大模型
Model capability: function_call
输入:
$0.3/1M tokens
输出:
$1.2/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

DeepSeek-V3 是 DeepSeek 团队推出的旗舰级开源语言模型,核心定位为以创新架构和训练技术,在实现高性能的同时大幅降低训练成本。

  • 性能卓越:在 MMLU、GPQA 等测试中表现突出,代码和数学任务超越部分闭源模型,中文事实知识任务表现优。
  • 成本降低:训练成本压缩至 278.8 万 H800 GPU 小时,不到传统方案 1/3。
  • 速度提升:推理速度较前代提升两倍以上。
  • 长文支持:128K 上下文长度支持长文本处理。

───────────────────────────────────────────────────────────────────

核心能力

⚙️ 高效架构:多头潜在注意力减少推理内存占用,DeepSeekMoE 架构实现负载均衡。

🚀 多 Token 预测:允许模型在每个位置预测多个未来 token,推理速度加快 1.8 倍。

💪 FP8 训练:首次在超大规模模型验证可行性,降低显存占用,性能损失小。

⚡ 并行框架:双向流水线调度,减少通信开销,训练效率接近理论上限。

───────────────────────────────────────────────────────────────────

相关评测

《刚刚,DeepSeek更新了V3版本,快来302抢先实测了解模型性能》

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(Deepseek)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

deepseek-v3

标准定价
64000

输入$0.3 / 1M tokens
输出$1.2 / 1M tokens

输入$0.3/ 1M tokens
输出$1.2/ 1M tokens
原价