企业级AI资源平台 - 302.AI | 按用量付费，全模型API接入，应用在线使用

qwen/qwen3-32b-fp8

高性能稠密语言模型Qwen3 - 32B的 FP8 量化版本

2025-06-10

语言大模型

输入:

$0.1/1M tokens

输出:

$0.5/1M tokens

大额采购联系客户经理享专属优惠

API介绍

Qwen3-32B-FP8 是阿里巴巴通义实验室推出的高性能稠密语言模型的 FP8 量化版本，核心定位为“高性价比、低延迟、强通用能力”的企业级推理主力。

稠密架构高效稳定：32B 全参数激活，在代码、数学、多语言等任务中表现均衡可靠，无 MoE 路由不确定性
FP8 量化加速：采用 FP8 精度优化，在 NVIDIA H100/A100 上实现 2 倍以上推理速度提升，显著降低部署成本
128K 超长上下文：原生支持长文本输入，适用于技术文档解析、法律合同审查、多轮复杂对话等场景
多语言深度覆盖：强化中文语境理解，同时支持英语、日语、法语、西班牙语等数十种语言的高质量生成

───────────────────────────────────────────────────────────────────

核心能力

⚡ 高吞吐实时响应：FP8 量化大幅减少显存占用与计算开销，单卡即可支撑高并发 API 服务

🧠 稳定强推理能力：在 HumanEval、GSM8K、C-Eval 等评测中表现优异，适合对确定性要求高的生产环境

🌍 中英双语专家级输出：无论是撰写技术方案、营销文案还是学术摘要，均能保持语言地道、逻辑严谨

🛡️ 企业安全合规：支持私有化部署、内容过滤与审计日志，满足金融、政务、医疗等行业监管需求

Playground

登录后，探索更多精彩功能！点击登录

API统计

API列表 (1)

API描述	接口地址	请求方法	稳定性	参数说明
Chat（PPIO派欧云）	https://api.302.ai/v1/chat/completions	POST	稳定	查看详情
暂无数据

API价格表

$￥円 ₽

模型	说明	上下文	官网原价	302.AI价格

qwen/qwen3-32b-fp8

128000

qwen/qwen3-32b-fp8

API介绍

核心能力

Playground

API统计

API列表 (1)

API价格表

qwen/qwen3-32b-fp8

输入$0.1 / 1M tokens
输出$0.5 / 1M tokens

输入$0.1/ 1M tokens
输出$0.5/ 1M tokens
原价

猜你喜欢

快捷访问

帮助与支持

法律声明

qwen/qwen3-32b-fp8

API介绍

核心能力

Playground

API统计

API列表 (1)

API价格表

qwen/qwen3-32b-fp8

输入$0.1 / 1M tokens输出$0.5 / 1M tokens

输入$0.1/ 1M tokens输出$0.5/ 1M tokens原价

猜你喜欢

输入$0.1 / 1M tokens
输出$0.5 / 1M tokens

输入$0.1/ 1M tokens
输出$0.5/ 1M tokens
原价