企业级AI资源平台 - 302.AI | 按用量付费，全模型API接入，应用在线使用

zai-org/autoglm-phone-9b-multilingual

专为手机智能体设计的视觉语言推理引擎

2025-12-11

语言大模型

输入:

$0.036/1M tokens

输出:

$0.143/1M tokens

大额采购联系客户经理享专属优惠

稳定性

稳定

API介绍

AutoGLM-Phone-9B-Multilingual 是面壁智能（Zai-org）推出的 90亿参数级开源多模态模型，核心定位为专为手机智能体（Phone Agent）设计的端侧/轻量级视觉语言推理引擎，旨在通过多模态感知理解屏幕并自动执行操作。

手机智能体专用：基于AutoGLM框架开发，专为操控手机设备设计，通过视觉语言模型实时解析屏幕界面元素，实现意图理解与任务执行。
多模态交互能力：支持文本与图像输入，能够理解复杂的手机屏幕内容，自动生成操作步骤（如点击、滑动），完成端到端的任务闭环。
高性价比推理：模型价格为输入0.25元/Mt，输出1元/Mt，相比同类大模型显著降低企业级应用的推理成本。
安全可控机制：内置敏感操作确认提示，遇到登录或验证码时自动转人工处理，支持WiFi/网络远程ADB调试，确保远程控制的安全性。
广泛语言支持：作为Multilingual版本，支持多语言环境下的指令理解与交互，适配全球化应用场景。

───────────────────────────────────────────────────────────────────

核心能力

📱 深度屏幕感知与理解

利用视觉语言模型实时解析手机屏幕UI元素，精准识别图标、按钮与文本，将像素信息转化为可操作的语义指令。

🤖 端到端任务自动化

基于AutoGLM框架，能够根据自然语言指令（如“打开小红书搜索美食”）自动规划操作路径，通过ADB（安卓调试桥）完成点击、滑动等屏幕操作。

🌐 多模态输入与远程控制

支持文本+图像混合输入，结合WiFi/网络远程ADB调试功能，轻松实现跨网络的远程设备控制与管理。

🛡️ 智能安全与人工接管

内置安全机制，对涉及隐私或关键决策的操作（如登录、支付）自动触发确认提示，并在遇到验证码时无缝转接人工处理。

Playground

登录后，探索更多精彩功能！点击登录

API统计

API列表 (1)

API描述	接口地址	请求方法	稳定性	参数说明
Chat（PPIO派欧云）	https://api.302.ai/v1/chat/completions	POST	稳定	查看详情
暂无数据

API价格表

$￥円 ₽

模型	说明	上下文	官网原价	302.AI价格