llama3.2-11b

llama3.2-11b

轻量级多模态开源模型
2024-09-25
语言大模型
Model capability: image
输入:
$0.5/1M tokens
输出:
$0.5/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

Llama 3.2 11B Vision 是 Meta 推出的轻量级多模态语言模型,核心定位为“高效图文理解+低门槛部署”的实用型视觉语言助手。

  • 轻量多模态设计:在仅 11B 参数规模下实现高质量图像理解与文本生成能力
  • 超长上下文支持:原生支持 128K token 上下文,轻松处理图文混合输入与多轮交互
  • 多语言覆盖广泛:支持 100+ 种语言,满足全球化应用场景下的图文理解需求
  • 本地友好部署:可在消费级 GPU(如 RTX 3060/4070)甚至部分高端笔记本上流畅运行
  • 智能体功能就绪:支持结构化输出与工具调用,适用于视觉问答、内容辅助等自动化场景

───────────────────────────────────────────────────────────────────

核心能力

👁️ 精准图像解析:能识别图像中的对象、文字、布局及语义关系,理解截图、图表、商品图等常见内容

🧠 图文协同推理:结合视觉信息与用户指令,完成如“根据界面截图写操作说明”“描述照片并生成社交文案”等任务

🌍 多语言自然输出:不仅看懂图,还能用符合本地习惯的语言进行描述、解释或创作

🧰 开箱即用集成:原生支持 JSON 输出与 Function Calling,轻松接入现有 AI 工作流或智能体系统

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(LLaMA3.2多模态)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

llama3.2-11b

-
131072

输入$0.5 / 1M tokens
输出$0.5 / 1M tokens

输入$0.5/ 1M tokens
输出$0.5/ 1M tokens
原价