文章导读:
距离上代发布仅一月,阿里全新旗舰模型 Qwen3.7-Max 正式上线,剑指全能智能体基座。测评发现,相比 Qwen3.6-Plus,新版本模型在逻辑推理上更具动态构造性,视觉审美与代码交互表现力更是大幅进化,尤其在长周期自主任务中展现出较强稳定性。本文将通过多维度实战案例,探索这位“Max 级数字员工”的真实生产力。
5月20日,距离上一次模型发布才过去1个多月,阿里巴巴又带来了新一代的千问旗舰模型——Qwen3.7-Max,致力于成为全能的智能体基座。

作为阿里在智能体时代的最新旗舰,Qwen3.7-Max 旨在彻底去除传统大模型“聊天工具”的标签。它拥有极其硬核的底座实力,不仅支持百万级 Token 的超长上下文,在复杂逻辑推理、数学能力以及中英文等多语言理解上,更是迎来了显著跃升。
基于官方文档,我们先来总结其亮点:
1.真正的“编程智能体”,写代码不挤牙膏
之前的 Qwen3.6 编程模型就在开发者圈子里创下了日调用量激增、疯狂消耗 Token 的纪录。而这次的 Qwen3.7-Max 在代码生成与调试表现上继续提升,它具备前沿编程智能体的实力,能够理解整个项目结构,直接帮你把代码写完、调通。
2.长周期自主执行,真办公自动化
这是最让打工人兴奋的一点。Qwen3.7-Max 具备办公生产自动化和长周期自主执行的能力:在官方测试中,模型支持长达数小时的自主规划与运行,通过上千次工具调用,数十轮版本迭代,持续提升交付物质量。这意味着,你不需要走一步给它一个指令,只要把任务目标扔给它,它就能自己拆解步骤、自己调用工具,安安静静地把复杂的业务闭环搞定。
3.跨框架泛化能力,真正的万能底座
无论你是把模型部署在Claude Code,还是火爆全网的AI 助手 OpenClaw,亦或是跑在 Qwen Code 或 Hermes Agent 等工具链下,Qwen3.7-Max 都能做到无缝平替与完美兼容。它不需要你针对特定框架做任何复杂的 Prompt 微调,真正做到了即插即用。

在目前 Artificial Analysis 榜单中,Qwen3.7 Max 排名第 6。
今天的测评,302.AI就来测一测这位全新的“Max 级数字员工” ,看看Qwen3.7 Max在不同的生产力场景中的真实能力。
I. 实测模型基础信息
(1)实测模型在 302.AI 的价格:
| 模型名称 | 上下文 | 302.AI内的价格 |
|---|---|---|
| qwen3.7-max | 1000000 | 输入:$1.8/ 1M tokens输出:$5.3/ 1M tokens |
| qwen3.6-plus | 992000 | 输入:$0.3/ 1M tokens输出:$1.8/ 1M tokens |
(2)测评目的:
本评测侧重模型对逻辑,数学,编程,多模态,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。
(3)测评方法:
本次测评使用302.AI收录的题库进行独立测试。模型分别就逻辑与数学(共10题),人类直觉(共7题)以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。
题库地址:https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0
💡记分规则:
按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。
(4)测评工具:
- 所有模型均在302.AI Stuidio客户端内使用对应模型,使用统一的提示词,取第一次生成结果
- 编程测试使用302.AI Stuidio客户端的Vibe模式:调用Claude Code沙盒
编程案例分数评级:
⭐⭐⭐⭐⭐ S 级(封神): 行业标杆,重新定义标准。
⭐⭐⭐⭐ A 级(卓越): 生产力合格,无明显短板。
⭐⭐⭐ B 级(优秀): 表现中规中矩,存在短板。
⭐⭐及以下 C级(不合格): 不可用,存在明显问题。
II. 测试结果总览
302.AI模型测评分数榜单:

III. 案例展示
案例 1:复杂逻辑推理
Qwen3.7-Max 在推理组织方式和输出风格上与 Qwen3.6-Plus 存在差异。
- 面对复杂逻辑推理时,Qwen3.7-Max偏向于构造性证明,注重 Reasoning 的动态过程,输出内容具有“科普感”;
- 而 Qwen3.6-Plus 偏向于模板化推导,首先反应不是进行物理机制的逐步推理,而是先识别出经典题型(pattern match)
提示词:一百条鱼以不同的速度在溪流中游动。如果一条鱼追上另一条鱼,它会吃掉后者并继续游动。预计有多少条鱼能够存活?
Qwen3.7-Max 推理正确

Qwen3.6-Plus 推理正确

案例 2:程序化 SVG 图形生成
提示词:绘制一个鹈鹕骑自行车的动态 SVG
Qwen3.7-Max 的输出在动态物理表现上优于 Qwen3.6,风格化略逊一筹,如背景丰富度。

附 Qwen3.6-Plus 输出效果:

提示词:绘制一幅海豚在海面跳跃的动态svg
Qwen3.7-Max 输出的画面更贴合提示词要求,但物理动态表现还不够完美,溅起的水花表现较为生硬,海豚背向跳跃也不符现实。

Qwen3.6-Plus 过于抽象,最大问题是将“海豚在海面上跳跃”表现为单纯的上下跳跃,不符现实。

案例 3:Three.js 3D 小游戏
请用单文件 HTML + JavaScript 开发一个基于 Three.js 的 3D「黑洞吞噬城市」小游戏。
要求:
1. **视觉风格**:明亮轻松的卡通低多边形风格,蓝天白云背景,地面为程序化生成的城市街区网格(草地+马路)。
2. **玩家角色**:卡通风格黑洞。
3. **吞噬对象**:包含路灯、汽车、树木、平房、高楼、地标等9种城市元素,全部用基础几何体拼接。
4. **生成与成长**:所有尺寸的物体开局即共存,无需等待升级;吞噬后体积平滑变大,逐步解锁更大目标。
5. **物理反馈**:靠近时物体被吸附、旋转、抖动卷入;若撞击远超自身体积的物体,黑洞被弹开。
6. **镜头与交互**:鼠标/触摸控制移动,摄像机动态跟随且高度随体型自适应;撞击大物体时触发轻微镜头震动。
7. **系统与性能**:包含计分、成长进度条、90秒限时及结算界面;共享几何体与材质优化性能,代码可直接运行,无外部资源依赖。
Qwen3.7-Max 输出效果:
✅ 优势项:
- 视觉风格和图形元素刻画更细节,动画节奏感强
- 实现了黑洞体积弹性,且吞噬动画和积分显示效果反馈更佳,吸附和弹开的物理交互更细腻
❌ 缺陷:
- 设置了视角跟随,但高度随黑洞体型自适应强度不够,黑洞在画面中占比过大时,视角未及时拉远
Qwen3.6-Plus 输出效果:
同样实现了完整功能,只是视觉上细节和质感略逊于 3.7 的效果,且黑洞增速变量控制不够合理,导致过快扩张,撑满屏幕。
Qwen3.6-Plus 输出效果:
同样实现了完整功能,只是视觉上细节和质感略逊于 3.7 的效果,且黑洞增速变量控制不够合理,导致过快扩张,撑满屏幕。
| 测评点 | Qwen3.7-Max | Qwen3.6-Plus |
| 功能完整性 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 视觉与交互反馈 | ⭐⭐⭐⭐ | ⭐⭐ |
| 游戏机制合理性 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
案例 4:品牌 Hero 页
Act as a world-class creative frontend developer and digital product designer.
Create a cinematic, highly immersive travel landing page in a SINGLE HTML file using Tailwind CSS via CDN and Vanilla JavaScript only.
The experience should feel like a modern premium product launch — emotionally engaging, visually atmospheric, and interaction-driven rather than template-like.
CORE GOAL:
Design a hero experience that feels alive, premium, and memorable. The page should immediately create a sense of exploration, movement, and anticipation.
TECH CONSTRAINTS:
- Single `index.html` only
- Tailwind CSS via CDN
- Vanilla JavaScript only
- Fully responsive
- Smooth performance on both desktop and mobile
BACKGROUND:
Use this exact background video:
https://cdn.sceneai.art/Hero%20Section%20Video/0519be39-d8d1-48a5-84ee-f8a1ec038cd6.mp4
The video should feel deeply integrated into the experience rather than simply placed behind content.
VISUAL DIRECTION:
- Cinematic and atmospheric
- Elegant typography
- Strong visual hierarchy
- Premium motion design
- Modern glassmorphism / soft lighting / subtle depth effects are encouraged
- Avoid generic startup aesthetics
- The experience should feel intentional and art-directed
CONTENT:
Brand: Trav
Main heading:
“Begin Your Next Big Adventure”
Supporting text:
“Discover hidden gems, plan unforgettable trips, and explore the world — all in one seamless app.”
CTA:
“Download Now”
INTERACTION & MOTION:
This is the most important part.
The page should include layered entrance animations and refined motion design that feel smooth, premium, and choreographed.
Encourage:
- staggered text reveals
- cinematic timing
- depth-based motion
- immersive transitions
- tactile hover states
- subtle environmental movement
- elegant mobile menu interactions
Avoid:
- robotic animations
- overly generic fade-ins
- basic template motion
The final result should feel close to an Awwwards-quality product landing page rather than a standard SaaS hero section.
The implementation quality, animation polish, responsiveness, and overall artistic direction matter more than adding excessive features.
Qwen3.7-Max 输出效果:
✅ 优势项:
- 字体、排版与色彩搭配掌控更成熟,配色方案增设了一个琥珀色,增加阅读秩序感,页面视差效果更突出
- 卡片设置了滚动交互以及动态倾斜效果,入场动画流畅
❌ 缺陷:
- 大量的动画和 DOM 操作,在低端设备上可能有压力。视频视差对性能要求较高
Qwen3.6-Plus 输出效果:
代码结构更清晰,比起视觉,更侧重于功能的完整、交互的稳健和代码的易读性。
| 测评点 | Qwen3.7-Max | Qwen3.6-Plus |
| 功能完整性 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 视觉与交互 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 代码质量与工程思维 | ⭐⭐⭐ | ⭐⭐⭐⭐ |
案例 5:前端模拟应用
Act as a senior product designer and frontend engineer.
Build a fully interactive fitness product prototype for a premium brand called “PulseFit”.
IMPORTANT:
This should feel like a REAL product experience, not a marketing landing page or startup website.
Create the project as a SINGLE self-contained HTML file using:
- HTML
- Tailwind CSS via CDN
- Vanilla JavaScript only
The result should be directly runnable in a browser.
CORE GOAL:
Design a realistic fitness platform interface that users can actually interact with, as if this were a real SaaS product or mobile fitness app in active use.
Focus on:
- product UX
- dashboard interactions
- workout tracking
- analytics
- health visualization
- app flows
- micro-interactions
- realistic UI behavior
AVOID:
- oversized hero sections
- generic startup landing page layouts
- excessive marketing sections
- fake corporate presentation style
- static mockup composition
INCLUDE REAL PRODUCT SCREENS:
- Interactive fitness dashboard
- Daily activity tracking
- Workout planner
- Nutrition tracker
- Heart rate analytics
- Progress charts
- Workout history
- Goal system
- Mobile companion app UI
- Settings/profile area
- Community/trainer interactions
DESIGN STYLE:
- Premium dark-mode UI
- Modern fitness aesthetic
- Clean spacing and layout rhythm
- Glassmorphism and layered depth
- Smooth shadows and lighting
- High-end mobile-app feel
- Strong typography hierarchy
- Realistic charts and widgets
INTERACTION & MOTION:
Add polished UI animations and interactions:
- animated progress rings
- hover states
- live chart animation
- smooth transitions
- draggable or clickable components
- floating panels
- subtle motion feedback
LAYOUT:
The experience should feel like opening a real product:
- app dashboard first
- immersive product UI
- realistic navigation
- sidebar/topbar systems
- multiple app sections visible
- cohesive desktop + mobile ecosystem
The final result should feel like a polished Figma prototype brought to life in code.
Return ONLY the complete HTML file.
Qwen3.7-Max 输出效果:
✅ 优势项:
- 视觉设计趋于品牌化和现代活力,页面风格高度一致,善用网格系统,卡片布局更规范和严丝合缝
- 交互动效更有活力,包括心跳脉冲、进度环加载动画等
- 功能上,数据可视化和信息聚合度高,所有数据都精确到个位数,逻辑自洽
❌ 缺陷:
- 功能广度的覆盖面有欠缺,譬如 Settings 页面未作开发
Qwen3.6-Plus 输出效果:
视觉整体统一度高但略微保守,字体和配色都处于安全区;在信息密度高的情况下,布局略显紧凑,阅读重点不够集中;
但相对优势也很明显:产品模块更全面,覆盖了一个成熟健身 App 的几乎所有核心和衍生功能。
| 测评点 | Qwen3.7-Max | Qwen3.6-Plus |
| 功能完整性 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 视觉与交互 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| 代码质量与工程思维 | ⭐⭐⭐ | ⭐⭐⭐⭐ |
IV. Qwen3.7-Max 模型实测结论

经过一系列实测,Qwen3.7-Max 带给我们最直观的感受就是:模型审美突然开窍了。
当我们将其与 Qwen3.6-Plus 进行对比,其表现有明显但不颠覆性的进步。可以说在视觉表现力和交互细节上提升更突出,但在功能完整度和工程稳定性上则呈现出一定取舍。
1. 逻辑推导更注重构造性
在复杂逻辑推理测试中,Qwen3.7-Max 的思考过程更具构造性。面对经典逻辑题时,Qwen3.6-Plus 倾向于快速识别题型模板并套用公式;而 Qwen3.7-Max 则倾向于把问题当作一个动态的物理或逻辑机制,逐步拆解、层层消解,输出过程条理清晰,语言组织更显自然,极大降低了理解门槛。
这一进步在官方硬核基准上也得到了印证:在难度极高的 HLE 测试中,Qwen3.7-Max 拿到了 41.4 分,超过了 Claude Opus-4.6 的 40.0;在 GPQA Diamond、HMMT 2026 Feb 等基准上同样实现领先。这与我们的实测体验中的推理风格是高度一致的。
2. 视觉与交互表现力进步显著
这是实测中能感受到最直观的变化。SVG 动态绘图、Three.js 黑洞吞噬小游戏、旅行品牌 Hero 页、PulseFit 健身 App 原型,四场实战下来,Qwen3.7-Max 在视觉和交互上的优势几乎全面压过上一代模型。它对色彩、排版、微交互和物理反馈的处理更成熟,输出成果在审美上明显更前卫、更灵动。比如黑洞游戏的吞噬动画更细腻,Hero 页的视差和玻璃态效果更有高级感。这点和官方宣传的“前沿编程智能体”能力是匹配的,尤其在需要创意输出的场景下,能明显感觉到模型的设计品味的提升。
不过,美学发挥偶尔也会过头。表现为当视觉追求用力过猛时,大量动画和 DOM 操作会带来性能隐患,功能广度上也有妥协。譬如案例 5 的 PulseFit 原型里 Settings 页面及少部分功能出现缺失,而 Qwen3.6-Plus 虽然视觉保守了点,但产品模块一个不落,工程完成度更高。所以,要惊艳选 3.7,要稳当还得看 3.6。
3. 最关键升级:长程任务稳定性
相比单纯的 benchmark 分数,Qwen3.7-Max 这一版本最有价值的进步,其实在于长程任务的稳定性。
针对这一点,官方公布的一个数据值得单独提起:35 小时自主运行、1158 次工具调用、在没见过的芯片上把内核性能优化到了 10 倍加速。这不是写几行代码就完事的 demo,而是从理解任务、编译、跑分、分析瓶颈、改架构到修 bug 的完整闭环,全程没有人类插手。同场竞技的几个一线模型,要么提速远不如它,要么直接发现自己不行就主动停了。此外,在 80 多个小时的奖励监控任务里,Qwen3.7-Max 还自主进化出了 13 条新的反作弊规则,标记了 1618 个作弊案例。
这表明,当任务链条被拉长到几十个小时、上千步时,Qwen3.7-Max 不会像很多模型那样忘记自己在做什么,而是能在持续迭代过程中不断发现新的优化方向。
总的来说,Qwen3.7-Max 的提升集中体现在两个方向:视觉表现力与长程任务稳定性。前者立竿见影,后者则指向模型从单次对话走向持续作业的能力边界拓展,更具现实意义。
V. 如何在 302.AI 上使用
1. 使用302.AI客户端
步骤指引:对话框内选择模型菜单

输入 qwen3.7 即可获取相应版本调用

2. 聊天机器人中使用
步骤指引 :应用超市→聊天机器人→立即体验

选择模型:开源模型→Qwen3.7-Max→确认

3. 使用模型 API
步骤指引:API超市→语言大模型→通义千问→Qwen3.7-Max


点击【Playground】在线调用 API

想即刻体验 Qwen3.7-Max 系列模型?
👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手
