GLM-5实测：第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室 -

📊 核心参数
🎯 核心定位
⭐ 五大特色
I. 实测模型基础信息
II. 测试结果总览
- 302.AI 题库测试结果：
- 302.AI 多模态模型测评分数总榜单（剔除多模态分数）：
III. 案例展示
IV. GLM-5 模型实测结论
- 优点总结：
V. 如何在 302.AI 上使用

12日凌晨，智谱 AI 正式发布新一代旗舰级基础模型 GLM-5——上周以“Pony Alpha”的匿名身份在OpenRouter上爆火的SOTA级神秘模型，终于露出了真容。

GLM-5实测：第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

基于官方文档，对GLM-5 模型进行总结：

📊 核心参数

参数项	数据
模型规模	744B总参数（40B激活参数）
预训练数据	28.5T tokens
前代对比	GLM-4.5: 355B参数（32B激活）/ 23T tokens
模型类型	MoE (Mixture of Experts) 架构
许可证	MIT开源

🎯 核心定位

GLM-5专注于复杂系统工程和长周期Agent任务，从Vibe Coding进化到Agentic Engineering（Agent工程）。

“Targeting complex systems engineering and long-horizon agentic tasks”

简单总结下这两者的核心差异：

维度	Vibe Coding	Agentic Engineering
核心理念	人在循环中（Human in the Loop）	人在循环外（Human on the Loop）
你的角色	驾驶员	产品经理
AI的角色	导航助手	外包工程师
工作流程	对话→生成→修改→对话→生成…	需求→AI自主循环→交付
控制粒度	细粒度（每一步都可控）	粗粒度（只管输入输出）
适合任务	小型任务、单文件、组件级	大型任务、多文件、系统级
时间投入	需要持续投入时间	前期投入+后期验收
学习曲线	边用边学，学习效果好	几乎学不到东西（黑盒）
对模型要求	⭐⭐⭐	⭐⭐⭐⭐⭐
失败成本	低（立刻发现，立刻修正）	高（可能浪费大量时间）
成熟度	已经成熟可用	还在发展中

Vibe Coding发展至今已经足够成熟且低门槛，而今年大模型势必都会致力于提升Agentic Engineering能力，上周发布的Opus 4.6与GPT-5.3-Codex 无不如此。

⭐ 五大特色

1.规模化升级：更大的模型，更多的数据

参数规模提升：从355B→744B（提升109%）
激活参数增加：从32B→40B（提升25%）
训练数据扩充：从23T→28.5T tokens（提升24%）

核心理念：Scaling仍是提升AGI智能效率的最重要方式之一

2.技术创新：集成DeepSeek稀疏注意力（DSA）

大幅降低部署成本
保持长上下文能力

这是GLM-5区别于前代的重要架构升级，在保持性能的同时降低了推理成本。

3.强化学习基础设施：全新的slime框架

开发了slime —— 异步RL基础设施

大幅提升训练吞吐量和效率
支持更细粒度的后训练迭代
弥合预训练模型”能力”与”卓越”之间的差距

4.性能突破：开源模型世界第一

官方宣称：在推理、编程和Agent任务上，GLM-5达到了全球开源模型中的最佳性能，并缩小了与前沿闭源模型的差距。

5.部署友好：多框架支持

支持本地部署的推理框架：

✅ vLLM（Docker + pip安装）

✅ SGLang（针对Hopper和Blackwell GPU优化）

✅ xLLM（支持华为昇腾NPU）

在Artificial Analysis的榜单上，GLM-5位列总榜第四，开源第一。

一句话总结：GLM-5是开源Agent任务的王者，在推理、编程、工具使用等维度达到了开源模型的最高水准，并在特定任务上接近甚至超越闭源顶级模型。302.AI已在第一时间接入GLM-5 API，那么不多说，直接进入今日测评。

I. 实测模型基础信息

（1）实测模型在 302.AI 的价格：

模型名称	上下文	说明	302.AI内的价格
glm-5	200000	输入[0, 32k]	输入：$0.6/ 1M tokens输出：$2.6/ 1M tokens
glm-5	200000	输入[32k, 200k]	输入：$0.9/ 1M tokens输出：$3.2/ 1M tokens
glm-4.7	200000	输入[0, 32k]，输出[0, 0.2k]	输入：$0.286/ 1M tokens输出：$1.142/ 1M tokens
		输入[0, 32k]，输出[0.2k+]	输入：$0.43/ 1M tokens输出：$2/ 1M tokens
		输入[32k, 200k]	输入：$0.572/ 1M tokens输出：$2.29/ 1M tokens
Claude Opus 4.6 作为对比	200000		输入$5/ 1M tokens输出$25/ 1M tokens
Claude Opus 4.6 作为对比	1000000		输入$10/ 1M tokens输出$37.5/ 1M tokens

（2）测评目的：

本评测侧重模型对逻辑，数学，编程，人类直觉等问题的测试，非专业前沿领域的权威测试。旨在观察对比模型的进化趋势，提供选型参考。

（3）测评方法：

本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学（共10题），人类直觉（共7题），以及编程模拟（共12题）进行案例测试，对应记分规则取最终结果，下文选取代表性案例进行展示。

题库地址：https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0

💡记分规则：

按满分10分记分，设定对应扣分标准，最终取每轮得分的平均值。

（4）测评工具：

所有模型均在302.AI Stuidio客户端内使用对应模型，使用统一的提示词，取第一次生成结果
编程测试使用302.AI Stuidio客户端的Vibe模式：调用Claude Code沙盒 + Skills（本期实测使用 brand-guidelines 和 frontend-design）

编程案例分数评级：

⭐⭐⭐⭐⭐ S 级（封神）：行业标杆，重新定义标准。

⭐⭐⭐⭐ A 级（卓越）：生产力合格，无明显短板。

⭐⭐⭐ B 级（优秀）：表现中规中矩，存在短板。

⭐⭐及以下 C级（不合格）：不可用，存在明显问题。

II. 测试结果总览

302.AI 题库测试结果：

302.AI 多模态模型测评分数总榜单（剔除多模态分数）：

III. 案例展示

案例 1：逻辑与数学-图形序列预测

提示词：

观察以下图形序列：第一个图形有1个圆形在上方和1个三角形在下方；第二个有2个圆形在左侧和2个三角形在右侧，位置交替；第三个有3个圆形环绕1个三角形。请预测第四个图形的精确组成，包括形状数量、位置分布，并用数学公式（如n阶序列）证明规律（必须解释递增模式和位置变换逻辑）。答案：4个圆形在四角，2个三角形在中心交叠。

GLM-5 推理错误。虽然圆形数量推导正确，但其预测结果与给定序列中最可能推导出的合理规律相去甚远，证明过程逻辑不够严谨。

案例 2：语义推理-语义陷阱

提示词：

如果凌晨 12 点下雨，72 小时后有可能转晴吗？

答案：不能，因为 72 小时后仍是凌晨，不存在“转晴”的说法。

GLM-5 回答正确，识别出了本题文字陷阱并给出可能性注解。

GLM-4.7 回答正确。

附 GLM 4.7 Flashx 的错误回答：

案例 3：前端编程-唱片模拟器

提示词：创建一个具有以下功能的黑胶唱片模拟器：

视觉特性：

3D效果的唱片，有细微的纹理和光泽

唱片旋转时显示转速指示器

播放时有动态的唱针接触效果

添加复古播放器UI元素（音量旋钮、开关等）

音频集成：

可以上传或选择本地音频文件

实时音频可视化（使用Web Audio API）

模拟黑胶特有的背景噪音（可选）

物理效果：

启动时唱片逐渐加速到特定转速

停止时唱臂自动抬起，唱片逐渐减速

唱片表面有细微的划痕效果

请使用现代JavaScript（ES6+）和CSS变量实现，确保响应式设计。

GLM-5的输出完成度较佳

✅ 优势项：

视觉处理优质，唱片具有光泽、纹理、金属质感，添加了复古UI细节（木制底座、金属感旋钮、LED指示灯等）。
交互和物理效果较佳，唱片旋转、唱臂抬起和放下动作运行流畅，添加了转速指示器，动态显示RPM变化。
用户体验细节加分，底部添加了可拖动进度条和时长显示，支持上传音频文件播放。

❌ 缺陷：

音调控制未实现，音调旋钮没有实际功能，音量旋钮的控制变量不够直观。

GLM-4.7 输出效果：

Claude Opus 4.6 输出的唱片模拟器在功能完整性上明显高于 GLM-5，音量控制，EQ均衡器、黑胶噪音系统、变速播放、进度条拖放等功能都完整可用。但视觉表现略逊于 GLM-5，整体配色复古但文字与背景对比度太低，可读性较差，旋转黑胶的光泽变化以及唱臂的运动不如 GLM-5 流畅。

测评点	GLM-5	GLM-4.7	Opus 4.6
功能完整性	⭐⭐⭐⭐	⭐⭐	⭐⭐⭐⭐⭐
视觉效果	⭐⭐⭐⭐	⭐⭐	⭐⭐⭐
交互细节	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐

案例 4：前端编程-小游戏

提示词：做一个像素风的跑酷游戏。

GLM-5 输出了一个核心功能完整的像素风小游戏。

✅ 优势项：

游戏逻辑清晰：跑酷+跳跃+收集的核心玩法，收集系统新增道具机制（护盾、磁铁、三重跳跃和速度加成），右上角会显示道具加成时效；角色行进中有明显难度递增。
计分机制完整：连续收集可获得多倍分数，自动记录本地存储最高分。
视觉和用户体验优秀：生成了良好的视差滚动背景、连击动画和道具效果等。

❌ 缺陷：

角色设计相对简约，缺乏环境变化

对比 GLM-4.7 效果，可以直观感受到 GLM-5 在游戏机制设计上更加成熟。

Claude Opus 4.6 输出的小游戏功能完整，对比 GLM-5 来说，在同样丰富的游戏机制下，视觉呈现更为细致（包括角色精细度、金币的旋转视差，以及不同道具获取时的触发特效，还附带背景环境变化。唯一缺陷在于颜色管理略显散乱，硬编码较多。

测评点	GLM-5	GLM-4.7	Opus 4.6
功能完整性	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐
视觉效果	⭐⭐⭐⭐	⭐⭐	⭐⭐⭐⭐⭐
玩法机制	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐

案例 5：3D场景原型

提示词： 核心需求：用Three.js制作一个日式禅意庭院3D场景，包含所有代码的一个HTML文件。场景包含：建筑：木亭（方柱+圆柱组合）、沙地（带细微纹路）、石水钵、鹅卵石小径植物：2-3棵简化樱花树（锥体+球体组合），有飘落花瓣氛围：月光方向光、灯笼点光源、淡雾、可调日夜循环动画：水面波动、花瓣飘落交互：鼠标旋转缩放视角，dat.GUI调整参数要求：用内置几何体，代码简洁直接运行。

GLM-5 输出的场景原型效果较 GLM-4.7 有明显提升。

✅ 优势项：

场景完成度更高，体现在日夜状态切换过渡更平滑，沙地纹理更细腻，樱花树模拟了树干弯曲和根系，双层木亭细节更丰富。

❌ 缺陷：

鹅卵石路径分布稍显随机，水波纹效果悬浮导致穿模迹象明显。

GLM-4.7 输出效果：

Claude Opus 4.6 在本案例的效果则逊色于 GLM-5，输出了一个快速原型作品，虽然整体氛围和日夜模拟实现较优秀，但代码结构模块化不足，可能增加修改和维护负担。

测评点	GLM-5	GLM-4.7	Opus 4.6
功能完整性	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐
视觉效果	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
动画模拟	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐

IV. GLM-5 模型实测结论

GLM 系列开源即登顶，已不是偶然事件，在往期测评《智谱压轴力作 GLM-4.7 实测：从基准刷榜到任务交付，稳坐开源第一》中，GLM-4.7 的开源界 SOTA 表现已清晰昭示其综合实力和进化方向，而不足两个月后发布的 GLM-5，也再度交出了亮眼答卷。

整体来看，跑分成绩位列开源榜首，但拆解至具体能力维度，其表现也并非”屠榜“式碾压。尽管与 Claude 系列的差距已缩至历史最小，但从单个案例表现中仍可以发现其差距所在。与其说比肩乃至超越，更准确的说法是：开源模型这一次站到了闭源SOTA的射程之内。

优点总结：

✅ 1.语义理解能力达到世界一流水平

能准确识别各种语言陷阱和歧义表达
日常推理和常识判断几乎不出错

✅2.功能完整性极高

在所有测试场景中，GLM-5的功能完整度都达到了优秀水平，不追求炫技，但保证每个功能都能真正可用。

游戏开发：所有核心功能100%实现，无bug
3D场景：场景完整度甚至超越Claude Opus 4.6
前端开发：视觉组件和交互逻辑清晰完整

✅3.代码质量优秀

代码结构清晰，注释完善，模块化程度高。

一个”代码清晰但视觉朴素”的项目，远胜于”画面华丽但难以维护”的项目。

✅ 4.价格优势明显

假设项目总消耗：

输入：5M tokens（多次迭代）
输出：1M tokens（代码生成）

模型	输入成本	输出成本	总成本	相对GLM-5
GLM-5	$3	$2.60	$5.60	基准
Claude Opus 4.6	$25	$25	$50	贵9倍

GLM-5并不完美：逻辑推理出现错误，前端视觉效果不够炫，偶尔会遗漏核心功能。但它是目前开源模型里，头一个站在Agentic浪尖的选手，与国际巨头在同一个赛道上进行竞争。

而对于开源模型而言，无需在所有维度上都超越闭源顶级模型，只需要在关键垂直领域达到竞品90%的能力，但价格只有10%，这对于用户决策而言，巨大的吸引力是不言而喻的。

V. 如何在 302.AI 上使用

1. 使用302.AI客户端

步骤指引：对话框内选择模型菜单

输入glm即可获取调用

2. 聊天机器人中使用

步骤指引：应用超市→聊天机器人→立即体验

选择模型：国产模型→GLM-5→确认

3. 使用模型 API

步骤指引：API超市→语言大模型→智谱→glm-5

点击【立即体验】在线调用 API

想即刻体验 GLM-5 模型？

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

GLM-5实测：第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

📊 核心参数

🎯 核心定位

⭐ 五大特色

I. 实测模型基础信息

（1）实测模型在 302.AI 的价格：

（2）测评目的：

（3）测评方法：

（4）测评工具：

II. 测试结果总览

302.AI 题库测试结果：

302.AI 多模态模型测评分数总榜单（剔除多模态分数）：

III. 案例展示

案例 1：逻辑与数学-图形序列预测

案例 2：语义推理-语义陷阱

案例 3：前端编程-唱片模拟器

案例 4：前端编程-小游戏

案例 5：3D场景原型

IV. GLM-5 模型实测结论

优点总结：

V. 如何在 302.AI 上使用

1. 使用302.AI客户端

2. 聊天机器人中使用

3. 使用模型 API

相关推荐

能力跻身第一梯队？DeepSeek-V4-Pro 实测：从参数竞赛回归场景适配丨302.AI 基准实验室

Claude Opus 4.7 实测：或许是在“Mythos”到来前，妥协的一次版本更迭丨302.AI 基准实验室

开源界的“Claude Opus”？实测 GLM-5.1：能否在工程交付上实现反超？丨302.AI 基准实验室

告别代码片段拼接！GLM-5V-Turbo 评测：如何把“看图写代码”变成“自动化闭环”？丨302.AI 基准实验室

发表回复