
qwen/qwen3-235b-a22b-fp8
基于 FP8 量化技术优化的旗舰级混合专家(MoE)大模型
2025-06-10
输入:
$0.2/1M tokens
输出:
$0.8/1M tokens
大额采购联系客户经理享专属优惠
API介绍
Qwen3-235B-A22B-FP8 是阿里巴巴通义实验室推出的超大规模混合专家(MoE)语言模型的 FP8 量化版本,核心定位为“极致推理效率 + 顶尖通用能力”的企业级高性能基座。
- MoE 架构旗舰:总参数 235B,激活参数仅 22B,在 MMLU、GSM8K、HumanEval 等权威评测中达到开源 SOTA 水平
- FP8 量化加速:采用 FP8 精度存储与计算,在 NVIDIA H100/A100 等硬件上实现 2–3 倍推理吞吐提升,显著降低延迟与成本
- 长上下文支持:原生支持 128K token 上下文,适用于长文档摘要、复杂任务拆解与多轮深度对话
- 多语言与代码强化:覆盖中、英、日、法等数十种语言,并在代码生成、数学推理等专业任务中表现卓越
───────────────────────────────────────────────────────────────────
核心能力
⚡ 高吞吐低延迟推理:FP8 量化大幅压缩内存占用与计算开销,单卡即可支撑高并发企业级应用
🧠 强逻辑与泛化能力:在复杂指令遵循、多跳问答、工具调用等场景中保持高准确率与稳定性
🌍 全球化语言支持:输出自然流畅,兼顾文化语境与专业术语,适用于国际业务与本地化场景
🛡️ 安全可控可审计:支持内容过滤、敏感词拦截与推理过程日志追踪,满足金融、政务等合规要求
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽