qwen/qwen3-4b-fp8

qwen/qwen3-4b-fp8

阿里巴巴推出的40亿参数级轻量模型,专为边缘设备(如手机、IoT)优化设计
2025-06-10
语言大模型
输入:
免费
输出:
免费
大额采购联系客户经理享专属优惠

API介绍

Qwen3-4B-FP8 是阿里巴巴推出的40亿参数级轻量模型,核心定位为极致高效的端侧推理引擎,专为边缘设备(如手机、IoT)优化设计,兼顾性能与低功耗需求。

  • 轻量标杆:仅4B参数,性能却比肩Qwen2.5-72B(720亿参数模型),在同等规模模型中精度领先。
  • FP8黑科技:采用FP8混合精度量化技术,模型体积压缩至约500MB,推理速度提升3倍,功耗降低60%。
  • 长文本支持:原生适配128K上下文,轻松处理长文档摘要、代码库分析等任务。
  • 多语言覆盖:支持119种语言(含中文方言),满足全球化应用需求。
  • 开箱即用:兼容ONNX Runtime、TensorRT等主流推理框架,5分钟即可部署到树莓派或手机端。

───────────────────────────────────────────────────────────────────

核心能力

⚡ 极速推理:FP8量化技术实现“零损耗”压缩,在树莓派5上推理速度达25 tokens/秒,延迟低于50ms。

📱 端侧全能:4B模型在手机端运行仅需1.2GB内存,支持实时语音翻译、离线摘要等场景,彻底摆脱云端依赖。

🌐 语言无界:内置多语言适配层,对粤语、闽南语等方言的识别准确率超92%,打破小语种AI应用壁垒。

🔧 生态零摩擦:提供Android/iOS SDK、Python轻量API,一行代码即可调用,完美适配Flutter、React Native等跨平台框架。

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
Chat(PPIO派欧云)
POST
稳定
查看详情

API价格表

$
模型说明上下文302.AI价格

qwen/qwen3-4b-fp8

-
128000

输入免费
输出免费
原价