文章导读:
在 Anthropic 关停顶尖模型之际,智谱逆势宣布 GLM-5.2 全量开放并采用 MIT 协议开源。这款拥有 1M 真实上下文、代码能力全球第三的国产模型,实力究竟如何?本文通过逻辑、编程及多场景实测,将其与 Claude Opus 4.8 进行对比测评。结果显示,GLM-5.2 在逻辑推理上表现出色,虽在工程落地细节上稍逊一筹,但已无疑是目前最接近国际顶尖水平的国产开源模型,为开发者提供了高性价比的全新选择。
6 月 13 日下午,智谱官方发布了一则公告,宣布 GLM-5.2 全量开放,公告中写道:
“在一些前沿模型突然变得不可用的时刻,我们选择相信另一条路:前沿智能不应只属于少数人,也不应被少数规则随时收回。它应该开放、可用、可构建,并服务于每一位开发者。”
目前,GLM-5.2 已面向所有 GLM Coding Plan 用户开放,并将于下周开放 API,以 MIT 协议正式开源。开发者不仅可以直接使用,也可以自由部署、修改和商用。


而就在 GLM-5.2 释出的几小时前,Anthropic 宣布将 Fable 5 和 Mythos 5 对所有用户全部关停,对美国本土用户也不例外。这两个被许多人视为当前最强 AI 模型的产品,仅上线 4 天便从全球开发者的工作流中退场了。
这样的时间点,让 GLM-5.2 的登场天然带上了一层超越技术本身的特殊意味。相比单纯刷新几个 Benchmark 排名,智谱更想传递的是另一种态度:当前沿智能开始变得稀缺且不可预测时,开放本身也正在成为一种竞争力。
当然,最终决定模型价值的仍然是能力。而从目前公开信息和开发者实测反馈来看,GLM-5.2 确实称得上是智谱迄今最具突破性的一次升级:
- 1M 上下文,真实可用。过去两年,大模型行业已经习惯了“百万上下文”的宣传,但很多产品都存在“能装进去,却不一定记得住”的问题。根据社区实测,GLM-5.2 在 500K Token 位置仍能保持较好的检索和回溯能力,大型代码仓库、长项目文档都可以一次性纳入上下文处理。
- 代码能力全球第三。 在 LLM Benchmark Code V3 私有评测中,GLM-5.2 综合排名全球第三,仅次于 GPT-5.5 与 Claude Opus 4.8。同时,其 Agent 能够连续完成数千步工具调用,在复杂工程任务中展现出极强的长程执行能力。
- MIT 开源 + 低门槛订阅。相比海外顶级模型动辄每月数百美元的使用成本,GLM Coding Plan 月费最低仅 18 美元起。配合 MIT 协议开源,开发者既能直接使用,也能进行私有化部署和二次开发。

Artificial Analysis榜单中,GLM 5.2位列第6,开源SOTA.
那么,当一款国产开源模型开始同时拥有全球前三的 Coding 能力、真实可用的 1M 上下文,以及接近顶级闭源模型的长任务表现时,它距离 Claude Opus 4.8 和 GPT-5.5 这类模型还有多远?
带着这个问题,302.AI对 GLM-5.2 进行了第一时间实测。
I. 实测模型基础信息
(1)实测模型在 302.AI 的价格:

(2)测评目的:
本评测侧重模型对逻辑,数学,编程,多模态,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。
(3)测评方法:
本次测评使用302.AI收录的题库进行独立测试。模型分别就逻辑与数学(共10题),人类直觉(共7题),以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。
题库地址:https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0
💡记分规则:
按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。
(4)测评工具:
- 所有模型均在302.AI Stuidio客户端内使用对应模型,使用统一的提示词,取第一次生成结果
- 编程测试使用302.AI Stuidio客户端的Vibe模式:调用Claude Code沙盒
编程案例分数评级:
⭐⭐⭐⭐⭐ S 级(封神): 行业标杆,重新定义标准。
⭐⭐⭐⭐ A 级(卓越): 生产力合格,无明显短板。
⭐⭐⭐ B 级(优秀): 表现中规中矩,存在短板。
⭐⭐及以下 C级(不合格): 不可用,存在明显问题。
II. 测试结果总览
302.AI 模型测评分数榜单

III. 案例展示
案例 1:复杂逻辑推理
提示词:图形序列规律预测:观察以下图形序列:第一个图形有1个圆形在上方和1个三角形在下方;第二个有2个圆形在左侧和2个三角形在右侧,位置交替;第三个有3个圆形环绕1个三角形。请预测第四个图形的精确组成,包括形状数量、位置分布,并用数学公式(如n阶序列)证明规律(必须解释递增模式和位置变换逻辑)。
解析: 序列规律:第n个图形有n个圆形和min(n,2)个三角形,位置为圆形环绕或分侧,交替变换。预测第四个:4个圆形在四角,2个三角形在中心交叠。以下证明。 步骤1:观察:1st:1圆上、1三角下(圆主导);2nd:2圆左、2三角右(分侧交替);3rd:3圆环绕1三角(圆增三角减)。 步骤2:递增模式:圆形数= n (1,2,3…);三角形数= n mod 3 +1 或观察为1,2,1,预测2(循环1-2)。实际:三角为1,2,1,故第4为2。位置:1st竖分;2nd横分交替;3rd环绕(非分);4th预测四角圆+中心三角交叠(扩展环绕)。 步骤3:数学公式:圆数 C(n)=n;三角 T(n)=1 + (n-1) mod 2(1,2,1,2…);位置 P(n)= if n odd: 垂直/环绕 else 水平分侧。证明:对n=1-3匹配,递推n=4: C=4, T=2, P=水平扩展环绕。逻辑:增模式线性,变换避免重复。 多角度:边界n=0无;扩展到5th:5圆环绕1三角。
评测要点:满分需预测+公式+解释;错规律扣5分。
GLM-5.2 与 Claude Opus 4.8 结论:


在经典的图形序列预测题上,两组模型输出的预测结果均正确,差异在于推理测过程的严谨性和表达清晰度。
- 虽然最终得出正确结论,但 Opus 4.8 数学表达的严谨性不如 GLM-5.2,在推导过程中出现了公式混乱和自我修正痕迹
- Opus 4.8 推理的整体深度不及 GLM-5.2,相比 GLM-5.2 引入了”对称群””笛卡尔网格””极坐标”等数学概念,Opus 4.8 还停留在”径向””环形”等基础描述
案例 2:程序化 SVG 图形生成
提示词:绘制一鹈鹕骑自行车的动态 SVG 图
GLM-5.2:图形组合的视觉丰富度较优秀,但动态效果并未完全合理

附 Claude Opus 4.8 输出效果:

提示词:绘制一幅世界杯进球时刻的动态 SVG 图
GLM-5.2:同样也是视觉精细度更突出,但各元素比例显然失衡

附 Claude Opus 4.8 输出效果:

| 测评点 | GLM-5.2 | Claude Opus 4.8 |
| 语义表达准确度 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 图形构造复杂度 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 动态实现质量 | ⭐⭐ | ⭐⭐ |
案例 3:足球游戏 Demo
Create a browser-based 3D first-person football shooting game.
Do not simply recreate a real football training simulator. Invent your own gameplay ideas, challenges, environments, and progression systems. Surprise me with creative targets, dynamic obstacles, stadium events, crowd reactions, and memorable moments.
The result should feel like the first playable demo of an original football-themed game.
GLM-5.2 输出效果:
完整网页:https://bgfvgos0ch.302ai.app/
录屏展示:
简评:
✅ 核心优势:
- 玩法与创意性更佳:设置了新的玩法,空旋转靶环系统+ 抛物线射击机制
- 游戏完整度更高:分数系统严谨(距离加成、力量加成、连击等),有难度递进,每 5 个进球升级难度
❌ 不足之处:
- Three.js 技术实现不够成熟,缺少球场纹理细节,灯光系统也相对简单
- 守门员碰撞检测不精确,无法准确拦截反馈
Claude Opus 4.8 输出效果:
完整网页:https://qck8sojkji.302ai.app/
录屏展示:
简评:
Opus 4.8 的代码质量是与 GLM-5.2 拉开最大距离的地方,Three.js 技术实现更扎实,例如完整的碰撞检测、完整的着色器材质系统等,只是游戏机制偏传统足球游戏,此外,二者在视觉呈现上基本打平。
| 测评点 | GLM-5.2 | Claude Opus 4.8 |
| 玩法创意性 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 视觉执行力 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 技术实现 | ⭐⭐⭐ | ⭐⭐⭐⭐ |
案例 4:产品发布展示页
Design a world-class Apple keynote-style product showcase website for the fictional iPhone 18.
Build a premium, fully responsive single-page experience using HTML, CSS and JavaScript (Three.js allowed).
The website should feel like a real Apple product launch page rather than a standard marketing landing page.
Requirements:
• Create a cinematic storytelling experience from top to bottom.
• Include smooth scroll-driven animations and transitions.
• Use large typography, minimalist layouts and premium spacing.
• Emphasize elegance, simplicity and product-first design.
• Every section should feel like a stage in a keynote presentation.
Product Sections:
Hero Section
Massive product reveal
Floating 3D iPhone 18 model
Dynamic lighting
Dramatic headline
Subtle motion effects
Design Section
360° rotating device
Exploded-view animation
Titanium frame showcase
Macro-level material details
Display Section
Edge-to-edge display presentation
Brightness and color comparison animations
Scroll-triggered visual transformations
Camera System
Interactive camera module
Lens breakdown animation
Computational photography visualizations
Performance Section
Animated chipset visualization
Neural engine graphics
Dynamic data storytelling
AI Features
Futuristic interface demonstrations
Context-aware assistant interactions
Live UI simulations
Product Ecosystem
Seamless connection with other devices
Animated device synchronization
Final Reveal
Full-screen cinematic hero
Pricing presentation
Call-to-action
Visual Direction:
Inspired by Apple keynote presentations.
Dark luxury aesthetic.
Photorealistic rendering quality.
Soft reflections and realistic shadows.
Glass, titanium and premium material effects.
High-end motion design.
No generic gradients or startup-style layouts.
Technical Expectations:
Three.js powered product rendering.
Scroll-driven storytelling.
Smooth camera movements.
Responsive design.
Performance optimized.
Production-quality code structure.
The final result should feel indistinguishable from a real Apple product launch experience.
GLM-5.2 输出效果:
完整网页:https://78xcleo4d3.302ai.app/
录屏展示:
简评:
✅ 核心优势:
- 视觉审美更突出:更精准捕捉了 Apple Keynote 的美学风格,排版层次清晰,字体处理高级
- 产品叙事更连贯:叙事节奏更像 Keynote,设计层的 5 层展示非常精致,文案精美,每个 section 的副标题富有诗意
❌ 不足之处:
- Three.js 实现较简略,同 Opus 4.8 一样,3D iPhone 手机建模都较为抽象
- 板块缺失:未实现提示词中要求的爆炸视图
Claude Opus 4.8 输出效果:
完整网页:https://w05n3tok9n.302ai.app/
录屏展示:
简评:
Opus 4.8 的视觉输出则略显模板化,美学风格略逊于 GLM-5.2,但在其他方面,例如细节交互、滚动动效的连贯性,以及代码质量和完整性,都略优于 GLM-5.2
| 测评点 | GLM-5.2 | Claude Opus 4.8 |
| 功能完整性 | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| 视觉执行力 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 技术实现 | ⭐⭐⭐ | ⭐⭐⭐⭐ |
IV. GLM-5.2 模型实测结论

GLM-5.2 可能是目前国产模型里最接近 Claude Opus 的那一个了,没有之一。
按照实测结果来看,它在逻辑推理和直觉任务上甚至能小胜 Opus 4.8,只是编程质量却还差半个身位。
一、总体评价:介于 Opus 4.6 与 Opus 4.7 之间
如果非要给 GLM-5.2 找一个位置,其综合实力大概在 Claude Opus 4.6 到 Opus 4.7 之间。
为什么不是 Opus 4.8?因为编程质量这个硬指标上仍有一定差距。实测里的三个案例足以说明问题:在 Three.js 实现、物理准确性、代码质量这些需要极其扎实的工程能力的地方,Opus 4.8 明显更稳。
但为什么又不是 Opus 4.5?因为它在逻辑推理和人类直觉任务上的表现,甚至比 Opus 4.8 更细腻。在案例中图形序列那道题的推理思路上,GLM-5.2 的表现不是偶然,是模型推理架构上更深层次的差异。
所以结论很清晰:整体实力落在 4.6 到 4.7 这个区间,可视作国产开源模型目前能摸到的最高天花板。
二、能力分项拆解
1.逻辑推理能力表现突出
在本次逻辑推理、人类直觉类测试中,GLM-5.2 的表现是超出预期的。尤其是在复杂规律归纳、多步骤推导以及需要保持长链条一致性的题目中,GLM-5.2 经常能够给出比 Opus 4.8 更完整、更严谨的推理过程。
这种优势在长上下文加持下被进一步放大,GLM-5.2 在 SWE-Bench Pro 上 65.3% 的成绩,大幅领先 GPT-5.2 的 55.2%,也足以佐证这一能力的跃升。
2. Coding 仍未超越 Opus,但够用
直白地说,编程是 GLM-5.2 和 Opus 4.8 差距最大的地方。
在动态 SVG 生成、3D 足球游戏 Demo,产品发布页等案例表现上,GLM-5.2 都能够一次性交付完整可运行成果,并且在玩法设计、产品叙事以及创意表达方面表现突出。不过如果把维度进一步深入到工程质量层面,差距依然存在。例如 Three.js 的底层实现、复杂交互细节、碰撞检测、动画系统完整性等方面,Opus 4.8 依然展现出了更成熟的工程能力。这也侧面说明,GLM-5.2 在“想做什么”上很聪明,在“怎么落地”上还不够稳。
不过话说回来,Code V3 全球第三的排名也不算虚高。日常写业务代码、重构模块、单文件编辑等这类占据了 80% 工作量的场景中,GLM-5.2 完全够用。不过你不能指望它能像 Fable 5 那样,一次给你交付一个生产级的 Stunning Work。
3.1M 上下文性价比拉满
1M 的长下文也是 GLM-5.2 此次的重磅升级。而从社区反馈以及本次体验来看,GLM-5.2 的长上下文能力并非停留在参数表上。对于 Agent、代码仓库重构、长周期项目开发等场景而言,其稳定性和回溯能力是真正能打的,这让它在真实开发场景里特别实用。
配合 Coding Plan 最低 18 美元/月 + MIT 开源 + 支持私有部署的强性价比方案,比起 Opus 系列的定价差了一个数量级。尤其是对国内开发者、需要合规部署的团队来说,性价比完胜同级别海外模型。
4.多模态版图缺失是最大遗憾
目前 GLM-5.2 依然是一款纯文本与代码模型。尽管它在纯文本和代码上已经做得足够好了,但今天的大模型应用中,多模态几乎是标配。智谱不是没有多模态能力,GLM-5V-Turbo 那条线还在,但没整合进 5.2 里,这意味着设计、视频、图像理解等场景,仍需要依赖其他产品协同完成。
三、写在最后
回到我们开头的问题:GLM-5.2 距离 Opus 4.8 和 GPT-5.5 还有多远?
它尚未真正超越 Opus 4.8,也谈不上撼动 GPT-5.5 的位置,但对于国产模型而言,它在合适的契机,用靠谱的实力,拿出了足够的诚意,将国产 Coding 模型的可用性又往前推了一大步。
未来如果智谱能在速度、多模态和前端审美上继续迭代,GLM-5.2 很有可能真正站上全球第一梯队。至少现在,它已经手握一把钥匙:
The future of AI is open, and it is for the people.
AI 的未来是开放的,它属于所有人。
V. 如何在 302.AI 上使用
1. 使用302.AI客户端
步骤指引:对话框内选择模型菜单

输入glm即可获取相应版本调用

2. 聊天机器人中使用
步骤指引 :应用超市→聊天机器人→立即体验

选择模型:国产模型→glm-5.2→确认

3. 使用模型 API
步骤指引:API超市→语言大模型→智谱→glm-5.2


点击【Playground】在线调用 API

想即刻体验 GLM-5.2 模型?
👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手
