文章导读:
阿里最新发布 Qwen3.6-Plus,将升级重心精准锚定在编程工程化、智能体执行与多模态协同三大实用方向。上线即登顶 OpenRouter 日榜、单日调用量破 1.4 万亿 Token,印证了它正被开发者真正依赖,而非仅仅是测试。脱离跑分滤镜,其真实战力究竟如何?本文将通过复杂交互动画、完整前端网页开发、多模态逻辑推理等案例,多方位实测模型表现。评测发现,Qwen3.6-Plus 已明显跨越“可用性”门槛,从单轮生成走向长链路任务执行,展现出趋于“到手即用”的工程交付能力。
4 月 2 日,阿里正式发布新一代大语言模型 Qwen3.6-Plus。作为 Qwen3.6 系列的首个版本,模型没有继续停留在参数或榜单层面的对比,而是将能力升级集中在更具实际价值的方向:编程能力、智能体执行以及工具调用。

Qwen3.6-Plus 在延续上一代能力框架的同时,将提升重点明确落在三个更贴近真实使用场景的方向:编程、智能体以及工具调用,其核心变化可以归纳为三个方面:
1. 编程能力向工程能力延展
相比前序模型,Qwen3.6-Plus 在 Coding 能力上有明显跃迁。在 SWE-bench、Terminal-Bench 2、NL2Repo 等贴近真实开发流程的测试中,其表现已经进入全球第一梯队。更关键的是,在代码生成之外,Qwen3.6-Plus 进一步强化了代码修复、终端操作与自动化执行能力,在前端开发、复杂仓库级任务以及长程编程问题中,都展现出更强的落地性,模型开始具备参与完整开发流程的能力。
2.以智能体为核心的执行能力重构
Qwen3.6-Plus 将推理、记忆与工具调用能力进行了更深度的融合,使模型可以完成“任务拆解—路径规划—工具调用—结果迭代”的完整流程,在复杂流程和长链路任务中表现出更高的自主性。在 Claw-Eval、QwenClawBench 等 Agent 评测中,其表现已接近甚至部分超越同梯队模型,标志着其从“对话模型”向“执行系统”的转变,让 Agentic Coding 和 Vibe Coding 从概念走向可用。

3. 多模态与长上下文协同升级
- 从参数与基础能力来看,Qwen3.6-Plus 默认支持 100 万 Token 的上下文窗口,这意味着它可以一次性处理接近完整代码仓库级别的信息量。
- 在多模态方向,模型也不再停留在识别层,而是强化了“理解 + 推理 + 执行”的闭环能力。例如基于界面截图生成前端页面、根据设计稿修改交互,甚至联动工具完成任务,使视觉信息真正进入开发流程。
如果说以上这些还停留在单纯的能力描述,那么一个更具说服力的信号来自真实使用数据:
Qwen3.6-Plus 上线后迅速登顶 OpenRouter 日榜,单日调用量突破1.4 万亿 Token,刷新平台历史记录。在一个以开发者真实调用为核心的聚合平台上,这意味着它正在被依赖,而不仅仅是被测试。

在Artificial Analysis榜单中,Qwen 3.6目前排名第8.

数据和 benchmark 之外,模型的真实能力还要看实际任务表现。接下来,302.AI将通过一系列案例,对 Qwen3.6-Plus 进行实测,看看它在真实开发场景中的表现究竟如何。
I. 实测模型基础信息
(1)实测模型在 302.AI 的价格:
| 模型名称 | 上下文 | 说明 | 302.AI内的价格 |
|---|---|---|---|
| qwen3.6-plus | 992000 | Input <= 256k | 输入$0.3/ 1M tokens输出$1.8/ 1M tokens |
| 256K-1M | 输入$1.2/ 1M tokens输出$7.2/ 1M tokens | ||
| qwen3.5-plus | 992000 | Input <= 128K | 输入$0.12/ 1M tokens输出$0.69/ 1M tokens |
| 128K-256K | 输入$0.29/ 1M tokens输出$1.72/ 1M tokens | ||
| 256K-1M | 输入$0.58/ 1M tokens输出$3.44/ 1M tokens |
(2)测评目的:
本评测侧重模型对逻辑,数学,编程,多模态,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。
(3)测评方法:
本次测评使用302.AI收录的题库进行独立测试。模型分别就逻辑与数学(共10题),人类直觉(共7题),多模态(共20题)以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。
题库地址:https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0
💡记分规则:
按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。
(4)测评工具:
- 所有模型均在302.AI Stuidio客户端内使用对应模型,使用统一的提示词,取第一次生成结果
- 编程测试使用302.AI Stuidio客户端的Vibe模式:调用Claude Code沙盒
编程案例分数评级:
⭐⭐⭐⭐⭐ S 级(封神): 行业标杆,重新定义标准。
⭐⭐⭐⭐ A 级(卓越): 生产力合格,无明显短板。
⭐⭐⭐ B 级(优秀): 表现中规中矩,存在短板。
⭐⭐及以下 C级(不合格): 不可用,存在明显问题。
II. 测试结果总览
302.AI 多模态模型测评分数榜单:

III. 案例展示
案例 1:多模态推理
Qwen3.6-Plus 在多模态领域延续了前序版本的精度,同时逻辑推理能力也小幅提升,应对复杂多模态逻辑推理时表现更佳。
提示词:根据广州市地铁线路图,给出从广州南站到猎德的线路方案,并指出哪一条速度最快。
Qwen3.6-Plus提供了三条正确方案,并提出了地铁+步行的组合方案。

Qwen3.5-397b-a17b 提供了两条正确方案和两条错误方案。

案例 2:程序化 SVG 图形生成
提示词:绘制一只鹈鹕骑自行车的SVG
Qwen3.6-Plus 的输出的组合图案更具趣味性,要素齐全,但在动态表现上,鹈鹕腿部与踏板衔接、路面相对运动方向以及车轮转动仍存在问题。

Qwen3.5-397b-a17b 输出了基本要素,车轮和道路相对运动方向正确,但是自行车踏板缺失,鹈鹕和车的相对位置不合逻辑。

| 测评点 | Qwen3.6-Plus | Qwen3.5-397b-a17b |
| 语义表达准确度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 图形构造复杂度 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 动态实现质量 | ⭐⭐⭐ | ⭐⭐ |
案例 3:交互式动画
提示词:
编写单页 HTML,使用 Canvas 实现一个沉浸式天气切换系统。
需包含‘晴天’、‘暴雨’、‘暴雪’三种模式:
- 晴天:展示动态云层与柔和光效;
- 暴雨:雨滴具有物理倾斜角,落地生成飞溅粒子,并伴随随机屏幕闪电;
- 暴雪:雪花缓慢飘落,叠加水平正弦波轨迹。 要求:点击按钮平滑切换天气,场景光照与背景色需自然过渡,粒子动画需流畅运行。
Qwen3.6-Plus 输出效果:
✅ 优势项:
- 视效出色,包括动态云层、雨滴物理倾斜、雪花摆动等细节设置
- 状态与过渡系统更平滑,天气切换时,粒子系统不会重置,实现淡入淡出
❌ 缺陷:
- 代码量较大,移动端设备显示可能掉帧
- 闪电的触发条件使得在切换过渡初期闪电较少,虽合理但不必要

附 Qwen3.5-397b-a17b 输出效果:
实现了所有核心要求,较明显缺陷在于视觉模拟缺乏细节(如闪电模式单一,无积水、积雪逻辑等)

| 测评点 | Qwen3.6-Plus | Qwen3.5-397b-a17b |
| 算法实现 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 动态生成动画 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 视觉设计与交互 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
案例 4:前端编程-网页制作
提示词:
模拟一个虚拟日历+倒计时网站
页面显示整月日历,每天可以标注重要事件
用户点击事件可查看倒计时详情
倒计时数字伴随日历动画,例如翻页、发光或动态标记
可支持多事件管理,切换主题和动画风格
Qwen3.6-Plus 输出效果:
✅ 优势项:
- 功能完整性较佳,事件记录功能齐全,颜色分类清晰,精确到秒钟计时
- 视觉与交互设计优秀,设置三种主题色,匹配事件颜色标识
❌ 缺陷:
- 未设置一个日期内多项事件逻辑
附 Qwen3.5-397b-a17b 输出效果:
基本实现核心需求,但存在明显Bug:没有事件颜色分类以及事件存储无持久化,刷新即丢失。
| 测评点 | Qwen3.6-Plus | Qwen3.5-397b-a17b |
| 功能完整性 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 视觉效果 | ⭐⭐⭐⭐ | ⭐⭐ |
| 交互体验 | ⭐⭐⭐ | ⭐⭐ |
IV. Qwen3.6-Plus 模型实测结论

综合实测表现与官方 benchmark 表现来看,Qwen3.6-Plus 已经进入一个更偏执行导向的能力阶段。模型的价值不是只体现在单点任务表现,而是开始围绕真实任务形成连续能力,这一点在编程、Agent 以及多模态测试中都有比较一致的体现:
⚙ 1. 工程能力:趋于可交付
在编程相关 benchmark 中,Qwen3.6-Plus 在 SWE-bench、Terminal-Bench 2、NL2Repo 等贴近真实开发流程的任务中进入第一梯队,说明其在复杂工程问题上的处理能力已经达到当前主流水平。
从实测结果来看,这种能力也体现在具体任务中:无论是交互式动画还是完整网页实现,模型在结构设计、功能完整性、视觉设计以及交互逻辑上都表现出较高的一致性,一次生成可用结果的概率明显提升。
同时,随着编程能力与工具调用能力的提升,Qwen3.6-Plus 在 Vibe Coding 场景中的体验也更顺手了。很多情况下,只需要用自然语言把需求讲清楚,模型就能直接给出结构完整的交付结果,如案例 4 中的日历网站,只需输入核心需求即可得到功能完整、界面美观和逻辑清晰的网页。这使得在中等复杂度任务中,整体交互成本得以降低,已然接近“到手即用”的效果。
💻 2. 执行能力:长链路可用
Qwen3.6-Plus 在任务处理方式上有一个比较明显的变化,更偏向过程驱动,而不是依赖单轮生成。从实测来看,在涉及多步骤推理或复杂目标的任务中,模型基本能够先做任务拆解,再围绕目标一步步推进。结合 Claw-Eval、QwenClawBench 等评测中的表现,这种能力也有一定的数据支撑。
这种特征在编程和多模态任务中同样能看到,比如在复杂需求下,模型会逐步补全功能或调整结构,整体推进节奏相对更连贯,也体现出一定的过程控制能力。不过在更长链路或更复杂约束下,偶尔还是会出现步骤偏移或策略不太稳定的情况,因此目前更适合在边界相对清晰的任务中使用。
🧠 3. 多模态能力:逐步融入工作流
在多模态 benchmark 和官方展示中,Qwen3.6-Plus 在文档理解、视觉推理等任务上都有比较稳定的提升。结合实测表现可见,它对图像信息的处理已经不只是“看懂”,而是能进一步参与到任务里,向理解→推理→执行的闭环演进,能够参与复杂逻辑判断、设计稿理解及界面生成等真实开发环节,使多模态能力进一步融入工作流。
从具体案例来看,模型通常能给出更完整的推理过程,结果的准确性也比较稳。不过在涉及精细结构或动态逻辑时,偶尔还是会出现一些局部不一致的情况,这也说明从复杂视觉信息到最终执行结果的这一步,还有一定优化空间。
综合看来,Qwen3.6-Plus 一定程度上已经跨过了可用性的门槛,不再只是用于简单辅助生成的模型,而是开始具备承担实际任务的能力。在当前阶段,将其作为开发流程中的半自动化执行单元,已具备现实意义。
V. 如何在 302.AI 上使用
1. 使用302.AI客户端
步骤指引:对话框内选择模型菜单

输入qwen3.6即可获取相应版本调用

2. 聊天机器人中使用
步骤指引 :应用超市→聊天机器人→立即体验

选择模型:国产模型→Qwen3.6-Plus→确认

3. 使用模型 API
步骤指引:API超市→语言大模型→通义千问→Qwen3.6-Plus

点击【Playground】在线调用 API

想即刻体验 Qwen3.6-Plus 模型?
👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手
