
zai-org/autoglm-phone-9b-multilingual
专为手机智能体设计的视觉语言推理引擎
2025-12-11
输入:
$0.036/1M tokens
输出:
$0.143/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
AutoGLM-Phone-9B-Multilingual 是面壁智能(Zai-org)推出的 90亿参数级开源多模态模型,核心定位为专为手机智能体(Phone Agent)设计的端侧/轻量级视觉语言推理引擎,旨在通过多模态感知理解屏幕并自动执行操作。
- 手机智能体专用:基于AutoGLM框架开发,专为操控手机设备设计,通过视觉语言模型实时解析屏幕界面元素,实现意图理解与任务执行。
- 多模态交互能力:支持文本与图像输入,能够理解复杂的手机屏幕内容,自动生成操作步骤(如点击、滑动),完成端到端的任务闭环。
- 高性价比推理:模型价格为输入0.25元/Mt,输出1元/Mt,相比同类大模型显著降低企业级应用的推理成本。
- 安全可控机制:内置敏感操作确认提示,遇到登录或验证码时自动转人工处理,支持WiFi/网络远程ADB调试,确保远程控制的安全性。
- 广泛语言支持:作为Multilingual版本,支持多语言环境下的指令理解与交互,适配全球化应用场景。
───────────────────────────────────────────────────────────────────
核心能力
📱 深度屏幕感知与理解
利用视觉语言模型实时解析手机屏幕UI元素,精准识别图标、按钮与文本,将像素信息转化为可操作的语义指令。
🤖 端到端任务自动化
基于AutoGLM框架,能够根据自然语言指令(如“打开小红书搜索美食”)自动规划操作路径,通过ADB(安卓调试桥)完成点击、滑动等屏幕操作。
🌐 多模态输入与远程控制
支持文本+图像混合输入,结合WiFi/网络远程ADB调试功能,轻松实现跨网络的远程设备控制与管理。
🛡️ 智能安全与人工接管
内置安全机制,对涉及隐私或关键决策的操作(如登录、支付)自动触发确认提示,并在遇到验证码时无缝转接人工处理。
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽