qwen/qwen3-32b-fp8

qwen/qwen3-32b-fp8

高性能稠密语言模型Qwen3 - 32B的 FP8 量化版本
2025-06-10
语言大模型
输入:
$0.1/1M tokens
输出:
$0.5/1M tokens
大额采购联系客户经理享专属优惠

API介绍

Qwen3-32B-FP8 是阿里巴巴通义实验室推出的高性能稠密语言模型的 FP8 量化版本,核心定位为“高性价比、低延迟、强通用能力”的企业级推理主力。

  • 稠密架构高效稳定:32B 全参数激活,在代码、数学、多语言等任务中表现均衡可靠,无 MoE 路由不确定性
  • FP8 量化加速:采用 FP8 精度优化,在 NVIDIA H100/A100 上实现 2 倍以上推理速度提升,显著降低部署成本
  • 128K 超长上下文:原生支持长文本输入,适用于技术文档解析、法律合同审查、多轮复杂对话等场景
  • 多语言深度覆盖:强化中文语境理解,同时支持英语、日语、法语、西班牙语等数十种语言的高质量生成

───────────────────────────────────────────────────────────────────

核心能力

高吞吐实时响应:FP8 量化大幅减少显存占用与计算开销,单卡即可支撑高并发 API 服务

🧠 稳定强推理能力:在 HumanEval、GSM8K、C-Eval 等评测中表现优异,适合对确定性要求高的生产环境

🌍 中英双语专家级输出:无论是撰写技术方案、营销文案还是学术摘要,均能保持语言地道、逻辑严谨

🛡️ 企业安全合规:支持私有化部署、内容过滤与审计日志,满足金融、政务、医疗等行业监管需求


Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(PPIO派欧云)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

qwen/qwen3-32b-fp8

-
128000

输入$0.1 / 1M tokens
输出$0.5 / 1M tokens

输入$0.1/ 1M tokens
输出$0.5/ 1M tokens
原价