llama-4-scout

llama-4-scout

轻量级 MoE 开源模型
2025-05-07
语言大模型
Model capability: function_call
输入:
$0.5/1M tokens
输出:
$0.5/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

Llama-4-Scout-17B-16E-Instruct 是 unsloth 推出的高效混合专家(MoE)语言模型,核心定位为“小激活、大能力”的轻量级 MoE 旗舰,兼顾高性能与低推理成本。

  • MoE 架构设计:总参数规模达 17B,激活专家数为 16,实际推理仅激活部分参数,显著降低计算开销
  • 超长上下文支持:原生支持 128K token 上下文,适用于长文档理解、多轮复杂对话等场景
  • 指令微调优化:专为高质量指令遵循训练,在逻辑、创作、问答等任务中输出更精准可靠
  • 高效推理加速:由 unsloth 深度优化,支持 FlashAttention 与 INT4 量化,消费级 GPU 即可流畅运行
  • 开源可商用:采用宽松许可,支持研究与商业部署,配套提供完整推理与微调工具链

───────────────────────────────────────────────────────────────────

核心能力

高能效推理:MoE 架构实现“大模型能力、小模型成本”,单位算力产出更高智能密度

🧠 精准任务执行:经过精细对齐训练,能准确理解并完成格式、风格、逻辑等细粒度指令

🧩 长文本驾驭力:在超长上下文中保持信息连贯性与关键细节捕捉,避免遗忘或偏移

🛠️ 开发者极速上手:原生兼容 Hugging Face 生态,配合 unsloth 加速库,微调与部署效率倍增

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(LLaMA4)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

llama-4-scout

-
128000

输入$0.5 / 1M tokens
输出$0.5 / 1M tokens

输入$0.5/ 1M tokens
输出$0.5/ 1M tokens
原价