
qwen/qwen3-32b-fp8
高性能稠密语言模型Qwen3 - 32B的 FP8 量化版本
2025-06-10
输入:
$0.1/1M tokens
输出:
$0.5/1M tokens
大额采购联系客户经理享专属优惠
API介绍
Qwen3-32B-FP8 是阿里巴巴通义实验室推出的高性能稠密语言模型的 FP8 量化版本,核心定位为“高性价比、低延迟、强通用能力”的企业级推理主力。
- 稠密架构高效稳定:32B 全参数激活,在代码、数学、多语言等任务中表现均衡可靠,无 MoE 路由不确定性
- FP8 量化加速:采用 FP8 精度优化,在 NVIDIA H100/A100 上实现 2 倍以上推理速度提升,显著降低部署成本
- 128K 超长上下文:原生支持长文本输入,适用于技术文档解析、法律合同审查、多轮复杂对话等场景
- 多语言深度覆盖:强化中文语境理解,同时支持英语、日语、法语、西班牙语等数十种语言的高质量生成
───────────────────────────────────────────────────────────────────
核心能力
⚡ 高吞吐实时响应:FP8 量化大幅减少显存占用与计算开销,单卡即可支撑高并发 API 服务
🧠 稳定强推理能力:在 HumanEval、GSM8K、C-Eval 等评测中表现优异,适合对确定性要求高的生产环境
🌍 中英双语专家级输出:无论是撰写技术方案、营销文案还是学术摘要,均能保持语言地道、逻辑严谨
🛡️ 企业安全合规:支持私有化部署、内容过滤与审计日志,满足金融、政务、医疗等行业监管需求
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽