baidu/ernie-4.5-vl-28b-a3b

baidu/ernie-4.5-vl-28b-a3b

百度推出的旗舰级多模态大模型,支持思考与非思考双模式的高性能视觉语言理解引擎
2025-12-10
语言大模型
Model capability: imageModel capability: function_call
输入:
$0.143/1M tokens
输出:
$0.572/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

ERNIE-4.5-VL-28B-A3B 是百度推出的 280亿参数级开源视觉语言模型,核心定位为基于三维注意力机制的高性能多模态理解引擎,在视觉问答、跨模态检索等任务中大幅超越同规模竞品。

  • 多项评测超越竞品:在VQA-v2、GLUE及COCO图像描述等基准测试中,准确率与得分均优于Qwen3-235B,展现出极强的多模态理解能力。
  • 推理速度提升显著:得益于A3B架构,相比传统Transformer模型推理速度提升47%,在保持高性能的同时大幅降低计算开销。
  • 显存占用优化:采用FP16+FP32混合精度训练策略,显存占用降低40%,并支持PaddleSlim量化压缩至12GB以内。
  • 国产硬件适配:支持昇腾、寒武纪等国产化硬件,提供完整的AI开发套件(PaddlePaddle+PaddleNLP+PaddleCV)。
  • 学术资源丰富:随模型开源提供超1000万条清洗过的多模态训练数据,是首个公开的千亿级多模态中文预训练模型。

───────────────────────────────────────────────────────────────────

核心能力

👁️ 三维注意力视觉融合:创新采用A3B架构,在空间、通道、时序三个维度建立动态权重,实现跨模态特征深度融合,视觉-语言任务推理效率提升23%。

⚡ 混合精度与动态稀疏:结合FP16+FP32混合精度策略与动态稀疏训练技术,在28B大参数量下实现仅相当于21B模型的实际计算量,显著降低硬件门槛。

🏆 顶尖的多模态评测表现:在VQA-v2准确率(82.3%)及COCO描述生成(BLEU-4 42.1)等关键指标上全面领先,甚至超越参数量更大的Qwen3-235B模型。

🚀 企业级高效推理部署:支持Paddle Inference的TensorRT加速与Ring-AllReduce分布式推理,单机多卡环境下可获得1.8倍吞吐量提升,适配高并发生产环境。

🌐 强大的国产化生态支持:原生适配国产AI芯片(如昇腾、寒武纪),提供从训练到推理的全栈国产化解决方案,保障企业级应用的自主可控与安全性。

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(PPIO派欧云)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

baidu/ernie-4.5-vl-28b-a3b

-
30000

输入$0.143 / 1M tokens
输出$0.572 / 1M tokens

输入$0.143/ 1M tokens
输出$0.572/ 1M tokens
原价