qwen/qwen3-235b-a22b-fp8

qwen/qwen3-235b-a22b-fp8

基于 FP8 量化技术优化的旗舰级混合专家(MoE)大模型
2025-06-10
语言大模型
输入:
$0.2/1M tokens
输出:
$0.8/1M tokens
大额采购联系客户经理享专属优惠

API介绍

Qwen3-235B-A22B-FP8 是阿里巴巴通义实验室推出的超大规模混合专家(MoE)语言模型的 FP8 量化版本,核心定位为“极致推理效率 + 顶尖通用能力”的企业级高性能基座。

  • MoE 架构旗舰:总参数 235B,激活参数仅 22B,在 MMLU、GSM8K、HumanEval 等权威评测中达到开源 SOTA 水平
  • FP8 量化加速:采用 FP8 精度存储与计算,在 NVIDIA H100/A100 等硬件上实现 2–3 倍推理吞吐提升,显著降低延迟与成本
  • 长上下文支持:原生支持 128K token 上下文,适用于长文档摘要、复杂任务拆解与多轮深度对话
  • 多语言与代码强化:覆盖中、英、日、法等数十种语言,并在代码生成、数学推理等专业任务中表现卓越

───────────────────────────────────────────────────────────────────

核心能力

高吞吐低延迟推理:FP8 量化大幅压缩内存占用与计算开销,单卡即可支撑高并发企业级应用

🧠 强逻辑与泛化能力:在复杂指令遵循、多跳问答、工具调用等场景中保持高准确率与稳定性

🌍 全球化语言支持:输出自然流畅,兼顾文化语境与专业术语,适用于国际业务与本地化场景

🛡️ 安全可控可审计:支持内容过滤、敏感词拦截与推理过程日志追踪,满足金融、政务等合规要求


Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(PPIO派欧云)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

qwen/qwen3-235b-a22b-fp8

-
40960

输入$0.2 / 1M tokens
输出$0.8 / 1M tokens

输入$0.2/ 1M tokens
输出$0.8/ 1M tokens
原价