
llama3.2-90b
具备强大视觉理解能力的开源模型
2024-09-25
输入:
$2/1M tokens
输出:
$2/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
Llama 3.2 90B Vision 是 Meta 推出的旗舰级多模态语言模型,核心定位为“强大视觉理解+通用语言能力”的一体化智能引擎。
- 原生多模态架构:深度融合视觉与语言模块,无需额外适配即可理解图像内容并进行推理
- 超长上下文支持:支持高达 128K token 上下文,轻松处理图文混合长序列输入
- 多语言覆盖广泛:支持 100+ 种语言,兼顾全球用户在图文场景下的本地化表达需求
- 高效推理优化:在主流 GPU(如 A100、H100)上可实现高吞吐、低延迟的多模态响应
- 智能体就绪设计:支持结构化输出与工具调用,适用于视觉问答、内容审核、辅助创作等场景
───────────────────────────────────────────────────────────────────
核心能力
👁️ 深度视觉理解:不仅能识别图像中的物体和场景,还能推理图文关系、解读图表、理解界面布局
🧠 图文联合推理:结合视觉线索与文本指令,完成如“根据截图写代码”“分析商品图生成文案”等复杂任务
🌍 多语言图文生成:支持跨语言的图文描述、翻译与创作,输出自然且文化适配
🧩 智能体无缝集成:原生兼容 Function Calling 与结构化响应,轻松嵌入自动化多模态工作流
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽