GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

12日凌晨,智谱 AI 正式发布新一代旗舰级基础模型 GLM-5——上周以“Pony Alpha”的匿名身份在OpenRouter上爆火的SOTA级神秘模型,终于露出了真容。

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

基于官方文档,对GLM-5 模型进行总结:

📊 核心参数

参数项数据
模型规模744B总参数(40B激活参数)
预训练数据28.5T tokens
前代对比GLM-4.5: 355B参数(32B激活)/ 23T tokens
模型类型MoE (Mixture of Experts) 架构
许可证MIT开源

🎯 核心定位

GLM-5专注于复杂系统工程和长周期Agent任务,从Vibe Coding进化到Agentic Engineering(Agent工程)。

“Targeting complex systems engineering and long-horizon agentic tasks”

简单总结下这两者的核心差异:

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室
维度Vibe CodingAgentic Engineering
核心理念人在循环中(Human in the Loop)人在循环外(Human on the Loop)
你的角色驾驶员产品经理
AI的角色导航助手外包工程师
工作流程对话→生成→修改→对话→生成…需求→AI自主循环→交付
控制粒度细粒度(每一步都可控)粗粒度(只管输入输出)
适合任务小型任务、单文件、组件级大型任务、多文件、系统级
时间投入需要持续投入时间前期投入+后期验收
学习曲线边用边学,学习效果好几乎学不到东西(黑盒)
对模型要求⭐⭐⭐⭐⭐⭐⭐⭐
失败成本低(立刻发现,立刻修正)高(可能浪费大量时间)
成熟度已经成熟可用还在发展中

Vibe Coding发展至今已经足够成熟且低门槛,而今年大模型势必都会致力于提升Agentic Engineering能力,上周发布的Opus 4.6与GPT-5.3-Codex 无不如此。

⭐ 五大特色

1.规模化升级:更大的模型,更多的数据

  • 参数规模提升:从355B→744B(提升109%)
  • 激活参数增加:从32B→40B(提升25%)
  • 训练数据扩充:从23T→28.5T tokens(提升24%)

核心理念:Scaling仍是提升AGI智能效率的最重要方式之一

2.技术创新:集成DeepSeek稀疏注意力(DSA

  • 大幅降低部署成本
  • 保持长上下文能力

这是GLM-5区别于前代的重要架构升级,在保持性能的同时降低了推理成本。

3.强化学习基础设施:全新的slime框架

开发了slime —— 异步RL基础设施

  • 大幅提升训练吞吐量和效率
  • 支持更细粒度的后训练迭代
  • 弥合预训练模型”能力”与”卓越”之间的差距

4.性能突破:开源模型世界第一

官方宣称:在推理、编程和Agent任务上,GLM-5达到了全球开源模型中的最佳性能,并缩小了与前沿闭源模型的差距。

5.部署友好:多框架支持

支持本地部署的推理框架:

✅ vLLM(Docker + pip安装)

✅ SGLang(针对Hopper和Blackwell GPU优化)

✅ xLLM(支持华为昇腾NPU)

在Artificial Analysis的榜单上,GLM-5位列总榜第四,开源第一。

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

一句话总结:GLM-5是开源Agent任务的王者,在推理、编程、工具使用等维度达到了开源模型的最高水准,并在特定任务上接近甚至超越闭源顶级模型。302.AI已在第一时间接入GLM-5 API,那么不多说,直接进入今日测评。


I. 实测模型基础信息

(1)实测模型在 302.AI 的价格:

模型名称上下文说明302.AI内的价格
glm-5200000输入[0, 32k]输入:$0.6/ 1M tokens输出:$2.6/ 1M tokens
输入[32k, 200k]输入:$0.9/ 1M tokens输出:$3.2/ 1M tokens
glm-4.7200000输入[0, 32k],输出[0, 0.2k]输入:$0.286/ 1M tokens输出:$1.142/ 1M tokens
输入[0, 32k],输出[0.2k+]输入:$0.43/ 1M tokens输出:$2/ 1M tokens
输入[32k, 200k]输入:$0.572/ 1M tokens输出:$2.29/ 1M tokens
Claude Opus 4.6 作为对比200000输入$5/ 1M tokens输出$25/ 1M tokens
1000000输入$10/ 1M tokens输出$37.5/ 1M tokens

(2)测评目的:

本评测侧重模型对逻辑,数学,编程,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。

(3)测评方法:

本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学(共10题),人类直觉(共7题),以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。

题库地址:https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0

💡记分规则:

按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。

(4)测评工具:

  • 所有模型均在302.AI Stuidio客户端内使用对应模型,使用统一的提示词,取第一次生成结果
  • 编程测试使用302.AI Stuidio客户端的Vibe模式:调用Claude Code沙盒 + Skills(本期实测使用 brand-guidelines 和 frontend-design)

编程案例分数评级:

⭐⭐⭐⭐⭐ S 级(封神): 行业标杆,重新定义标准。

⭐⭐⭐⭐ A 级(卓越): 生产力合格,无明显短板。

⭐⭐⭐ B 级(优秀): 表现中规中矩,存在短板。

⭐⭐及以下 C级(不合格): 不可用,存在明显问题。


II. 测试结果总览

302.AI 题库测试结果:

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室
GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

302.AI 多模态模型测评分数总榜单(剔除多模态分数)

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

III. 案例展示

案例 1:逻辑与数学-图形序列预测

提示词

观察以下图形序列:第一个图形有1个圆形在上方和1个三角形在下方;第二个有2个圆形在左侧和2个三角形在右侧,位置交替;第三个有3个圆形环绕1个三角形。请预测第四个图形的精确组成,包括形状数量、位置分布,并用数学公式(如n阶序列)证明规律(必须解释递增模式和位置变换逻辑)。 答案:4个圆形在四角,2个三角形在中心交叠。

GLM-5 推理错误。虽然圆形数量推导正确,但其预测结果与给定序列中最可能推导出的合理规律相去甚远,证明过程逻辑不够严谨。

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

案例 2:语义推理-语义陷阱

提示词

如果凌晨 12 点下雨,72 小时后有可能转晴吗?

答案:不能,因为 72 小时后仍是凌晨,不存在“转晴”的说法。

GLM-5 回答正确,识别出了本题文字陷阱并给出可能性注解。

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

GLM-4.7 回答正确。

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

GLM 4.7 Flashx 的错误回答:

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

案例 3:前端编程-唱片模拟器

提示词:创建一个具有以下功能的黑胶唱片模拟器:

  1. 视觉特性:
    1. 3D效果的唱片,有细微的纹理和光泽
    2. 唱片旋转时显示转速指示器
    3. 播放时有动态的唱针接触效果
    4. 添加复古播放器UI元素(音量旋钮、开关等)
  2. 音频集成:
    1. 可以上传或选择本地音频文件
    2. 实时音频可视化(使用Web Audio API)
    3. 模拟黑胶特有的背景噪音(可选)
  3. 物理效果:
    1. 启动时唱片逐渐加速到特定转速
    2. 停止时唱臂自动抬起,唱片逐渐减速
    3. 唱片表面有细微的划痕效果

请使用现代JavaScript(ES6+)和CSS变量实现,确保响应式设计。

GLM-5的输出完成度较佳

✅ 优势项:

  • 视觉处理优质,唱片具有光泽、纹理、金属质感,添加了复古UI细节(木制底座、金属感旋钮、LED指示灯等)。
  • 交互和物理效果较佳,唱片旋转、唱臂抬起和放下动作运行流畅,添加了转速指示器,动态显示RPM变化。
  • 用户体验细节加分,底部添加了可拖动进度条和时长显示,支持上传音频文件播放。

❌ 缺陷:

  • 音调控制未实现,音调旋钮没有实际功能,音量旋钮的控制变量不够直观。

GLM-4.7 输出效果:

Claude Opus 4.6 输出的唱片模拟器在功能完整性上明显高于 GLM-5,音量控制,EQ均衡器、黑胶噪音系统、变速播放、进度条拖放等功能都完整可用。但视觉表现略逊于 GLM-5,整体配色复古但文字与背景对比度太低,可读性较差,旋转黑胶的光泽变化以及唱臂的运动不如 GLM-5 流畅。

测评点GLM-5GLM-4.7Opus 4.6
功能完整性⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
视觉效果⭐⭐⭐⭐⭐⭐⭐⭐⭐
交互细节⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

案例 4:前端编程-小游戏

提示词:做一个像素风的跑酷游戏。

提示词:做一个像素风的跑酷游戏。

GLM-5 输出了一个核心功能完整的像素风小游戏。

✅ 优势项:

  • 游戏逻辑清晰:跑酷+跳跃+收集的核心玩法,收集系统新增道具机制(护盾、磁铁、三重跳跃和速度加成),右上角会显示道具加成时效;角色行进中有明显难度递增。
  • 计分机制完整:连续收集可获得多倍分数,自动记录本地存储最高分。
  • 视觉和用户体验优秀:生成了良好的视差滚动背景、连击动画和道具效果等。

❌ 缺陷:

  • 角色设计相对简约,缺乏环境变化
GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

对比 GLM-4.7 效果,可以直观感受到 GLM-5 在游戏机制设计上更加成熟

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

Claude Opus 4.6 输出的小游戏功能完整,对比 GLM-5 来说,在同样丰富的游戏机制下,视觉呈现更为细致(包括角色精细度、金币的旋转视差,以及不同道具获取时的触发特效,还附带背景环境变化。唯一缺陷在于颜色管理略显散乱,硬编码较多。

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室
测评点GLM-5GLM-4.7Opus 4.6
功能完整性⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
视觉效果⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
玩法机制⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

案例 5:3D场景原型

提示词: 核心需求: 用Three.js制作一个日式禅意庭院3D场景,包含所有代码的一个HTML文件。 场景包含: 建筑:木亭(方柱+圆柱组合)、沙地(带细微纹路)、石水钵、鹅卵石小径 植物:2-3棵简化樱花树(锥体+球体组合),有飘落花瓣 氛围:月光方向光、灯笼点光源、淡雾、可调日夜循环 动画:水面波动、花瓣飘落 交互:鼠标旋转缩放视角,dat.GUI调整参数 要求: 用内置几何体,代码简洁直接运行。

GLM-5 输出的场景原型效果较 GLM-4.7 有明显提升。

✅ 优势项:

  • 场景完成度更高,体现在日夜状态切换过渡更平滑,沙地纹理更细腻,樱花树模拟了树干弯曲和根系,双层木亭细节更丰富。

❌ 缺陷:

  • 鹅卵石路径分布稍显随机,水波纹效果悬浮导致穿模迹象明显。
GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

GLM-4.7 输出效果:

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

Claude Opus 4.6 在本案例的效果则逊色于 GLM-5,输出了一个快速原型作品,虽然整体氛围和日夜模拟实现较优秀,但代码结构模块化不足,可能增加修改和维护负担。

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室
测评点GLM-5GLM-4.7Opus 4.6
功能完整性⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
视觉效果⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
动画模拟⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

IV. GLM-5 模型实测结论

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

GLM 系列开源即登顶,已不是偶然事件,在往期测评《智谱压轴力作 GLM-4.7 实测:从基准刷榜到任务交付,稳坐开源第一》中,GLM-4.7 的开源界 SOTA 表现已清晰昭示其综合实力和进化方向,而不足两个月后发布的 GLM-5,也再度交出了亮眼答卷。

整体来看,跑分成绩位列开源榜首,但拆解至具体能力维度,其表现也并非”屠榜“式碾压。尽管与 Claude 系列的差距已缩至历史最小,但从单个案例表现中仍可以发现其差距所在。与其说比肩乃至超越,更准确的说法是:开源模型这一次站到了闭源SOTA的射程之内。

优点总结:

✅ 1.语义理解能力达到世界一流水平

  • 能准确识别各种语言陷阱和歧义表达
  • 日常推理和常识判断几乎不出错

✅2.功能完整性极高

在所有测试场景中,GLM-5的功能完整度都达到了优秀水平,不追求炫技,但保证每个功能都能真正可用。

  • 游戏开发:所有核心功能100%实现,无bug
  • 3D场景:场景完整度甚至超越Claude Opus 4.6
  • 前端开发:视觉组件和交互逻辑清晰完整

✅3.代码质量优秀

代码结构清晰,注释完善,模块化程度高。

一个”代码清晰但视觉朴素”的项目,远胜于”画面华丽但难以维护”的项目。

✅ 4.价格优势明显

假设项目总消耗:

  • 输入:5M tokens(多次迭代)
  • 输出:1M tokens(代码生成)
模型输入成本输出成本总成本相对GLM-5
GLM-5$3$2.60$5.60基准
Claude Opus 4.6$25$25$50贵9倍

GLM-5并不完美:逻辑推理出现错误,前端视觉效果不够炫,偶尔会遗漏核心功能。但它是目前开源模型里,头一个站在Agentic浪尖的选手,与国际巨头在同一个赛道上进行竞争。

而对于开源模型而言,无需在所有维度上都超越闭源顶级模型,只需要在关键垂直领域达到竞品90%的能力,但价格只有10%,这对于用户决策而言,巨大的吸引力是不言而喻的。


V. 如何在 302.AI 上使用

1. 使用302.AI客户端

步骤指引:对话框内选择模型菜单

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

输入glm即可获取调用

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

2. 聊天机器人中使用

步骤指引 :应用超市→聊天机器人→立即体验

选择模型:国产模型→GLM-5→确认

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

3. 使用模型 API

步骤指引:API超市→语言大模型→智谱→glm-5

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室
GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

点击【立即体验】在线调用 API

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室

想即刻体验 GLM-5 模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

GLM-5实测:第一个站上Agentic工程浪尖的开源模型丨302.AI 基准实验室
All Rights Reserved by 302.AI
喜欢 (0)
302.AI302.AI
上一页 2026 年 2 月 11 日 下午5:59
下一页 2026 年 2 月 24 日 下午6:42

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注