企业级AI资源平台 - 302.AI | 按用量付费，全模型API接入，应用在线使用

qwen/qwen3-4b-fp8

阿里巴巴推出的40亿参数级轻量模型，专为边缘设备（如手机、IoT）优化设计

2025-06-10

语言大模型

输入:

免费

输出:

免费

大额采购联系客户经理享专属优惠

API介绍

Qwen3-4B-FP8 是阿里巴巴推出的40亿参数级轻量模型，核心定位为极致高效的端侧推理引擎，专为边缘设备（如手机、IoT）优化设计，兼顾性能与低功耗需求。

轻量标杆：仅4B参数，性能却比肩Qwen2.5-72B（720亿参数模型），在同等规模模型中精度领先。
FP8黑科技：采用FP8混合精度量化技术，模型体积压缩至约500MB，推理速度提升3倍，功耗降低60%。
长文本支持：原生适配128K上下文，轻松处理长文档摘要、代码库分析等任务。
多语言覆盖：支持119种语言（含中文方言），满足全球化应用需求。
开箱即用：兼容ONNX Runtime、TensorRT等主流推理框架，5分钟即可部署到树莓派或手机端。

───────────────────────────────────────────────────────────────────

核心能力

⚡ 极速推理：FP8量化技术实现“零损耗”压缩，在树莓派5上推理速度达25 tokens/秒，延迟低于50ms。

📱 端侧全能：4B模型在手机端运行仅需1.2GB内存，支持实时语音翻译、离线摘要等场景，彻底摆脱云端依赖。

🌐 语言无界：内置多语言适配层，对粤语、闽南语等方言的识别准确率超92%，打破小语种AI应用壁垒。

🔧 生态零摩擦：提供Android/iOS SDK、Python轻量API，一行代码即可调用，完美适配Flutter、React Native等跨平台框架。

Playground

登录后，探索更多精彩功能！点击登录

API统计

API列表 (1)

API描述	接口地址	请求方法	稳定性	参数说明
Chat（PPIO派欧云）	https://api.302.ai/v1/chat/completions	POST	稳定	查看详情
暂无数据

API价格表

$￥円 ₽

模型	说明	上下文	302.AI价格

qwen/qwen3-4b-fp8

128000

qwen/qwen3-4b-fp8

API介绍

核心能力

Playground

API统计

API列表 (1)

API价格表

qwen/qwen3-4b-fp8

输入免费
输出免费
原价

猜你喜欢

快捷访问

帮助与支持

法律声明

qwen/qwen3-4b-fp8

API介绍

核心能力

Playground

API统计

API列表 (1)

API价格表

qwen/qwen3-4b-fp8

输入免费输出免费原价

猜你喜欢

输入免费
输出免费
原价