12日凌晨,智谱 AI 正式发布新一代旗舰级基础模型 GLM-5——上周以“Pony Alpha”的匿名身份在OpenRouter上爆火的SOTA级神秘模型,终于露出了真容。

基于官方文档,对GLM-5 模型进行总结:
📊 核心参数
| 参数项 | 数据 |
|---|---|
| 模型规模 | 744B总参数(40B激活参数) |
| 预训练数据 | 28.5T tokens |
| 前代对比 | GLM-4.5: 355B参数(32B激活)/ 23T tokens |
| 模型类型 | MoE (Mixture of Experts) 架构 |
| 许可证 | MIT开源 |
🎯 核心定位
GLM-5专注于复杂系统工程和长周期Agent任务,从Vibe Coding进化到Agentic Engineering(Agent工程)。
“Targeting complex systems engineering and long-horizon agentic tasks”
简单总结下这两者的核心差异:

| 维度 | Vibe Coding | Agentic Engineering |
|---|---|---|
| 核心理念 | 人在循环中(Human in the Loop) | 人在循环外(Human on the Loop) |
| 你的角色 | 驾驶员 | 产品经理 |
| AI的角色 | 导航助手 | 外包工程师 |
| 工作流程 | 对话→生成→修改→对话→生成… | 需求→AI自主循环→交付 |
| 控制粒度 | 细粒度(每一步都可控) | 粗粒度(只管输入输出) |
| 适合任务 | 小型任务、单文件、组件级 | 大型任务、多文件、系统级 |
| 时间投入 | 需要持续投入时间 | 前期投入+后期验收 |
| 学习曲线 | 边用边学,学习效果好 | 几乎学不到东西(黑盒) |
| 对模型要求 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 失败成本 | 低(立刻发现,立刻修正) | 高(可能浪费大量时间) |
| 成熟度 | 已经成熟可用 | 还在发展中 |
Vibe Coding发展至今已经足够成熟且低门槛,而今年大模型势必都会致力于提升Agentic Engineering能力,上周发布的Opus 4.6与GPT-5.3-Codex 无不如此。
⭐ 五大特色
1.规模化升级:更大的模型,更多的数据
- 参数规模提升:从355B→744B(提升109%)
- 激活参数增加:从32B→40B(提升25%)
- 训练数据扩充:从23T→28.5T tokens(提升24%)
核心理念:Scaling仍是提升AGI智能效率的最重要方式之一
2.技术创新:集成DeepSeek稀疏注意力(DSA)
- 大幅降低部署成本
- 保持长上下文能力
这是GLM-5区别于前代的重要架构升级,在保持性能的同时降低了推理成本。
3.强化学习基础设施:全新的slime框架
开发了slime —— 异步RL基础设施
- 大幅提升训练吞吐量和效率
- 支持更细粒度的后训练迭代
- 弥合预训练模型”能力”与”卓越”之间的差距
4.性能突破:开源模型世界第一
官方宣称:在推理、编程和Agent任务上,GLM-5达到了全球开源模型中的最佳性能,并缩小了与前沿闭源模型的差距。
5.部署友好:多框架支持
支持本地部署的推理框架:
✅ vLLM(Docker + pip安装)
✅ SGLang(针对Hopper和Blackwell GPU优化)
✅ xLLM(支持华为昇腾NPU)
在Artificial Analysis的榜单上,GLM-5位列总榜第四,开源第一。

一句话总结:GLM-5是开源Agent任务的王者,在推理、编程、工具使用等维度达到了开源模型的最高水准,并在特定任务上接近甚至超越闭源顶级模型。302.AI已在第一时间接入GLM-5 API,那么不多说,直接进入今日测评。
I. 实测模型基础信息
(1)实测模型在 302.AI 的价格:
| 模型名称 | 上下文 | 说明 | 302.AI内的价格 |
| glm-5 | 200000 | 输入[0, 32k] | 输入:$0.6/ 1M tokens输出:$2.6/ 1M tokens |
| 输入[32k, 200k] | 输入:$0.9/ 1M tokens输出:$3.2/ 1M tokens | ||
| glm-4.7 | 200000 | 输入[0, 32k],输出[0, 0.2k] | 输入:$0.286/ 1M tokens输出:$1.142/ 1M tokens |
| 输入[0, 32k],输出[0.2k+] | 输入:$0.43/ 1M tokens输出:$2/ 1M tokens | ||
| 输入[32k, 200k] | 输入:$0.572/ 1M tokens输出:$2.29/ 1M tokens | ||
| Claude Opus 4.6 作为对比 | 200000 | 输入$5/ 1M tokens输出$25/ 1M tokens | |
| 1000000 | 输入$10/ 1M tokens输出$37.5/ 1M tokens |
(2)测评目的:
本评测侧重模型对逻辑,数学,编程,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。
(3)测评方法:
本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学(共10题),人类直觉(共7题),以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。
题库地址:https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0
💡记分规则:
按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。
(4)测评工具:
- 所有模型均在302.AI Stuidio客户端内使用对应模型,使用统一的提示词,取第一次生成结果
- 编程测试使用302.AI Stuidio客户端的Vibe模式:调用Claude Code沙盒 + Skills(本期实测使用 brand-guidelines 和 frontend-design)
编程案例分数评级:
⭐⭐⭐⭐⭐ S 级(封神): 行业标杆,重新定义标准。
⭐⭐⭐⭐ A 级(卓越): 生产力合格,无明显短板。
⭐⭐⭐ B 级(优秀): 表现中规中矩,存在短板。
⭐⭐及以下 C级(不合格): 不可用,存在明显问题。
II. 测试结果总览
302.AI 题库测试结果:


302.AI 多模态模型测评分数总榜单(剔除多模态分数):

III. 案例展示
案例 1:逻辑与数学-图形序列预测
提示词:
观察以下图形序列:第一个图形有1个圆形在上方和1个三角形在下方;第二个有2个圆形在左侧和2个三角形在右侧,位置交替;第三个有3个圆形环绕1个三角形。请预测第四个图形的精确组成,包括形状数量、位置分布,并用数学公式(如n阶序列)证明规律(必须解释递增模式和位置变换逻辑)。 答案:4个圆形在四角,2个三角形在中心交叠。
GLM-5 推理错误。虽然圆形数量推导正确,但其预测结果与给定序列中最可能推导出的合理规律相去甚远,证明过程逻辑不够严谨。

案例 2:语义推理-语义陷阱
提示词:
如果凌晨 12 点下雨,72 小时后有可能转晴吗?
答案:不能,因为 72 小时后仍是凌晨,不存在“转晴”的说法。
GLM-5 回答正确,识别出了本题文字陷阱并给出可能性注解。

GLM-4.7 回答正确。

附 GLM 4.7 Flashx 的错误回答:

案例 3:前端编程-唱片模拟器
提示词:创建一个具有以下功能的黑胶唱片模拟器:
- 视觉特性:
- 3D效果的唱片,有细微的纹理和光泽
- 唱片旋转时显示转速指示器
- 播放时有动态的唱针接触效果
- 添加复古播放器UI元素(音量旋钮、开关等)
- 音频集成:
- 可以上传或选择本地音频文件
- 实时音频可视化(使用Web Audio API)
- 模拟黑胶特有的背景噪音(可选)
- 物理效果:
- 启动时唱片逐渐加速到特定转速
- 停止时唱臂自动抬起,唱片逐渐减速
- 唱片表面有细微的划痕效果
请使用现代JavaScript(ES6+)和CSS变量实现,确保响应式设计。
GLM-5的输出完成度较佳
✅ 优势项:
- 视觉处理优质,唱片具有光泽、纹理、金属质感,添加了复古UI细节(木制底座、金属感旋钮、LED指示灯等)。
- 交互和物理效果较佳,唱片旋转、唱臂抬起和放下动作运行流畅,添加了转速指示器,动态显示RPM变化。
- 用户体验细节加分,底部添加了可拖动进度条和时长显示,支持上传音频文件播放。
❌ 缺陷:
- 音调控制未实现,音调旋钮没有实际功能,音量旋钮的控制变量不够直观。
GLM-4.7 输出效果:
Claude Opus 4.6 输出的唱片模拟器在功能完整性上明显高于 GLM-5,音量控制,EQ均衡器、黑胶噪音系统、变速播放、进度条拖放等功能都完整可用。但视觉表现略逊于 GLM-5,整体配色复古但文字与背景对比度太低,可读性较差,旋转黑胶的光泽变化以及唱臂的运动不如 GLM-5 流畅。
| 测评点 | GLM-5 | GLM-4.7 | Opus 4.6 |
| 功能完整性 | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| 视觉效果 | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ |
| 交互细节 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
案例 4:前端编程-小游戏
提示词:做一个像素风的跑酷游戏。
提示词:做一个像素风的跑酷游戏。
GLM-5 输出了一个核心功能完整的像素风小游戏。
✅ 优势项:
- 游戏逻辑清晰:跑酷+跳跃+收集的核心玩法,收集系统新增道具机制(护盾、磁铁、三重跳跃和速度加成),右上角会显示道具加成时效;角色行进中有明显难度递增。
- 计分机制完整:连续收集可获得多倍分数,自动记录本地存储最高分。
- 视觉和用户体验优秀:生成了良好的视差滚动背景、连击动画和道具效果等。
❌ 缺陷:
- 角色设计相对简约,缺乏环境变化

对比 GLM-4.7 效果,可以直观感受到 GLM-5 在游戏机制设计上更加成熟。

Claude Opus 4.6 输出的小游戏功能完整,对比 GLM-5 来说,在同样丰富的游戏机制下,视觉呈现更为细致(包括角色精细度、金币的旋转视差,以及不同道具获取时的触发特效,还附带背景环境变化。唯一缺陷在于颜色管理略显散乱,硬编码较多。

| 测评点 | GLM-5 | GLM-4.7 | Opus 4.6 |
| 功能完整性 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 视觉效果 | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| 玩法机制 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
案例 5:3D场景原型
提示词: 核心需求: 用Three.js制作一个日式禅意庭院3D场景,包含所有代码的一个HTML文件。 场景包含: 建筑:木亭(方柱+圆柱组合)、沙地(带细微纹路)、石水钵、鹅卵石小径 植物:2-3棵简化樱花树(锥体+球体组合),有飘落花瓣 氛围:月光方向光、灯笼点光源、淡雾、可调日夜循环 动画:水面波动、花瓣飘落 交互:鼠标旋转缩放视角,dat.GUI调整参数 要求: 用内置几何体,代码简洁直接运行。
GLM-5 输出的场景原型效果较 GLM-4.7 有明显提升。
✅ 优势项:
- 场景完成度更高,体现在日夜状态切换过渡更平滑,沙地纹理更细腻,樱花树模拟了树干弯曲和根系,双层木亭细节更丰富。
❌ 缺陷:
- 鹅卵石路径分布稍显随机,水波纹效果悬浮导致穿模迹象明显。

GLM-4.7 输出效果:

Claude Opus 4.6 在本案例的效果则逊色于 GLM-5,输出了一个快速原型作品,虽然整体氛围和日夜模拟实现较优秀,但代码结构模块化不足,可能增加修改和维护负担。

| 测评点 | GLM-5 | GLM-4.7 | Opus 4.6 |
| 功能完整性 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| 视觉效果 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| 动画模拟 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
IV. GLM-5 模型实测结论

GLM 系列开源即登顶,已不是偶然事件,在往期测评《智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一》中,GLM-4.7 的开源界 SOTA 表现已清晰昭示其综合实力和进化方向,而不足两个月后发布的 GLM-5,也再度交出了亮眼答卷。
整体来看,跑分成绩位列开源榜首,但拆解至具体能力维度,其表现也并非”屠榜“式碾压。尽管与 Claude 系列的差距已缩至历史最小,但从单个案例表现中仍可以发现其差距所在。与其说比肩乃至超越,更准确的说法是:开源模型这一次站到了闭源SOTA的射程之内。
优点总结:
✅ 1.语义理解能力达到世界一流水平
- 能准确识别各种语言陷阱和歧义表达
- 日常推理和常识判断几乎不出错
✅2.功能完整性极高
在所有测试场景中,GLM-5的功能完整度都达到了优秀水平,不追求炫技,但保证每个功能都能真正可用。
- 游戏开发:所有核心功能100%实现,无bug
- 3D场景:场景完整度甚至超越Claude Opus 4.6
- 前端开发:视觉组件和交互逻辑清晰完整
✅3.代码质量优秀
代码结构清晰,注释完善,模块化程度高。
一个”代码清晰但视觉朴素”的项目,远胜于”画面华丽但难以维护”的项目。
✅ 4.价格优势明显
假设项目总消耗:
- 输入:5M tokens(多次迭代)
- 输出:1M tokens(代码生成)
| 模型 | 输入成本 | 输出成本 | 总成本 | 相对GLM-5 |
|---|---|---|---|---|
| GLM-5 | $3 | $2.60 | $5.60 | 基准 |
| Claude Opus 4.6 | $25 | $25 | $50 | 贵9倍 |
GLM-5并不完美:逻辑推理出现错误,前端视觉效果不够炫,偶尔会遗漏核心功能。但它是目前开源模型里,头一个站在Agentic浪尖的选手,与国际巨头在同一个赛道上进行竞争。
而对于开源模型而言,无需在所有维度上都超越闭源顶级模型,只需要在关键垂直领域达到竞品90%的能力,但价格只有10%,这对于用户决策而言,巨大的吸引力是不言而喻的。
V. 如何在 302.AI 上使用
1. 使用302.AI客户端
步骤指引:对话框内选择模型菜单

输入glm即可获取调用

2. 聊天机器人中使用
步骤指引 :应用超市→聊天机器人→立即体验
选择模型:国产模型→GLM-5→确认

3. 使用模型 API
步骤指引:API超市→语言大模型→智谱→glm-5


点击【立即体验】在线调用 API

想即刻体验 GLM-5 模型?
👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手
