Qwen3.5系列中型模型实测：原生多模态亮眼，中小团队利器丨302.AI 基准实验室 -

阿里通义千问团队在推出Qwen3.5-397b的旗舰模型后，于2月25日带来了Qwen3.5 中型模型系列的更新。与以往“更大参数=更强能力”的惯性思维不同，这次官方打出了“More intelligence, less compute”（更聪明的智能，更少的算力）的旗号。

该系列包含三款开源模型及一项托管服务：

Qwen3.5-122B-A10B（MoE 架构，激活 10B）
Qwen3.5-35B-A3B（MoE 架构，激活 3B）
Qwen3.5-27B（Dense 密集架构）
Qwen3.5-Flash：与 35B-A3B 对齐的生产托管版本，默认支持 1M 上下文长度并预装官方工具链

其中，Qwen3.5-35B-A3B 凭借仅激活3B参数的惊人效率，在多项基准上超越半年前发布的 235B 参数量的前代模型，有力印证了架构创新与数据质量的关键作用；而 Qwen3.5-122B-A10B 与 27B 则进一步缩小了中型模型与前沿模型之间的性能差距，尤其在复杂智能体场景中表现突出。

📑模型矩阵：精准定位，各擅胜场

模型系列	架构类型	关键参数	核心定位	突出能力标签
Qwen3.5-122B-A10B	MoE	总参数122B，激活10B	大而全的综合旗舰	多模态理解、视频分析、多语言知识、复杂智能体
Qwen3.5-35B-A3B	MoE	总参数35B，激活3B	深度智能体专家	智能体规划、深度推理、任务调度、空间智能
Qwen3.5-27B	Dense	总参数27B	轻量化部署首选	代码生成、长文本处理、数学推理、高工程实用度
Qwen3.5-Flash	托管服务	与35B-A3B对齐	生产级API服务	1M上下文、内置工具链、超低延迟与成本

核心升级：五大维度重塑模型能力

相较于上一代 Qwen3 系列，Qwen3.5 中型模型在技术路径上实现了系统性跃升，具体体现为以下五大亮点：

🎯 1. 创新架构：四两拨千斤的效率革命

新系列采用了 “门控增量网络 + 稀疏混合专家（MoE）” 的全新架构组合。

简单来说，就像一家公司不再让所有员工处理每一件琐事，而是根据任务类型，只唤醒最擅长该领域的几位专家。这种精准调度的方式，让 Qwen3.5-35B-A3B 仅激活 30 亿参数，就能在多项测试中超越前代 2350 亿参数的巨型模型——相当于用一辆摩托车的油耗，跑出了重型卡车的载重能力。、

架构效率＞堆参数，这是本次升级最核心的信号。

🧠 2. 能力进化：眼脑并用，应对真实难题

原生多模态，视觉理解浑然天成：Qwen3.5 在预训练阶段就把文字和图像放在一起学习，而不是像上一代那样先学文字再补视觉插件。这种训练方式，让它对图表、照片、视频的理解更自然。在 MathVision（数学图表理解）、MMMU（多学科多模态理解）等视觉推理考试中，122B 版本的得分甚至超过了上一代专门优化的视觉模型。
强化学习加练，应对复杂游刃有余：研发团队把模型扔进了百万级规模的智能体实战演练场，在各种复杂多变的任务中强化它的规划与工具调用能力。无论是需要多步推理的 DeepPlanning 测试，还是考验调用外部工具的 BFCL-V4，Qwen3.5 都表现得更像一位沉着的老手，能自主拆解问题、调用资源、完成目标。

🖥️ 3. 部署友好：百万 token 窗口，普通显卡也能跑

超长上下文 + 多语言覆盖：全系列标配 25.6 万 token 的上下文窗口，配合扩容后的 25 万词表，编码效率提升 10%~60%。这意味着它能一口气读完《三体》三部曲再加几十篇参考文献，同时支持 201 种语言——从英语到冷门语种，都不在话下。
基础设施优化，显存压力骤减：通过原生 FP8 低精度训练、训推架构解耦等底层优化，多模态训练效率几乎追平纯文本训练，显存占用降低约50%。这意味着，即使是 122B 这样的大块头，部署门槛也被大幅拉低，开发者甚至可以在消费级显卡上跑起中型版本，真正实现了前沿能力，亲民成本。

302.AI 现已接入 Qwen3.5 系列模型 API，用户可按需调用，本期测评，我们将以 Qwen3.5-122B-A10B 为代表，多维度拆解其真实任务表现能力。

I. 实测模型基础信息

（1）实测模型在 302.AI 的价格：

模型名称	上下文	说明	302.AI内的价格
Qwen3.5-122B-A10B	992000	Input ≤ 128K	输入 $0.12/ 1M tokens输出 $0.92/ 1M tokens
Qwen3.5-122B-A10B	992000	128K-256K	输入 $0.29/ 1M tokens输出 $2.29/ 1M tokens
Qwen3.5-35B-A3B	992000	Input ≤ 128K	输入 $0.06/ 1M tokens输出 $0.46/ 1M tokens
Qwen3.5-35B-A3B	992000	128K-256K	输入 $0.23/ 1M tokens输出 $1.83/ 1M tokens
Qwen3.5-27B	992000	Input ≤ 128K	输入 $0.09/ 1M tokens输出 $0.69/ 1M tokens
Qwen3.5-27B	992000	128K-256K	输入 $0.26/ 1M tokens输出 $2.06/ 1M tokens
Qwen3.5-Flash	992000	Input ≤ 128K	输入 $0.03/ 1M tokens输出 $0.29/ 1M tokens
		128K-256K	输入 $0.12/ 1M tokens输出 $1.15/ 1M tokens
		256K-1M	输入 $0.18/ 1M tokens输出 $1.72/ 1M tokens

（2）测评目的：

本评测侧重模型对逻辑，数学，编程，多模态，人类直觉等问题的测试，非专业前沿领域的权威测试。旨在观察对比模型的进化趋势，提供选型参考。

（3）测评方法：

本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学（共10题），人类直觉（共7题），多模态（共20题）以及编程模拟（共12题）进行案例测试，对应记分规则取最终结果，下文选取代表性案例进行展示。

题库地址：https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0

💡记分规则：

按满分10分记分，设定对应扣分标准，最终取每轮得分的平均值。

（4）测评工具：

所有模型均在302.AI Stuidio客户端内使用对应模型，使用统一的提示词，取第一次生成结果
编程测试使用302.AI Stuidio客户端的Vibe模式：调用Claude Code沙盒 + Skills（本期实测使用 brand-guidelines 和 frontend-design）

编程案例分数评级：

⭐⭐⭐⭐⭐ S 级（封神）：行业标杆，重新定义标准。

⭐⭐⭐⭐ A 级（卓越）：生产力合格，无明显短板。

⭐⭐⭐ B 级（优秀）：表现中规中矩，存在短板。

⭐⭐及以下 C级（不合格）：不可用，存在明显问题。

II. 测试结果总览

302.AI 多模态模型测评分数榜单：

III. 案例展示

案例 1：多模态逻辑推理

测试点：多模态识别，细粒度感知，逻辑推理，公式运用

提示词：

下列哪条线段最长？

线段 A

线段 B

线段 C

线段 D 正确解法：根据每条线段长和宽占用的方格数计算： A = 3² + 6² => 9 + 36 => 45 B = 5² + 5² => 25 + 25 => 50 C = 6² + 4² => 36 + 16 => 52 D = 7² + 1² => 49 + 1 => 50 因此线段C最长

Qwen3.5-122B-A10B 识别推理正确：

细粒度感知和计算逻辑都没有问题

案例 2：前端编程-网页制作

测试点：信息集成，Vibe Coding，技术理解与转译能力

提示词：Create a homepage for Qwen3.5 Medium Model Series that shows off three models (122B, 35B, 27B) and Flash API. Make it look modern and techy. Include a comparison table, key features, and performance highlights. Generate logo and some demo visuals. Keep it clean.

翻译：为 Qwen3.5 中型模型系列创建一个主页，展示三款型号（122B、35B 和 27B）以及 Flash API。设计风格要现代且科技感十足。包含对比表格、主要功能和性能亮点。生成徽标和一些演示图片。保持页面简洁明了。

Qwen3.5-122B-A10B 输出效果：

✅ 优势项：

网页结构和模型信息准确完整，数据展示形式分模型卡片、对比表格与核心亮点。
科技感页面设计，增加了浅色/深色模式，悬停动画和过渡流畅。

❌ 缺陷：

数据呈现不够直观，可视化处理不足，API调用缺乏实际交互演示。

案例 3：前端编程-小程序

测试点：前端设计，系统架构设计，用户体验思维

提示词：

请担任高级全栈架构师和产品经理的角色，为我设计和生成一个类似“菜鸟裹裹”或“顺丰速运”的快递服务微信小程序的项目方案与核心代码。

一、项目核心目标

开发一个集“快递寄件、运单查询、上门取件预约、服务点查找”于一体的综合性快递服务小程序。核心特点是：流程标准化、状态透明化、操作便捷化。

二、详细需求说明

用户端核心功能模块：

首页/快速寄件：

核心寄件表单：寄/收件人信息（姓名、电话、地址）、物品信息（类型、重量/数量、备注）、取件时间选择。

一键复制常用地址或从地址簿选择。

实时运费估算功能（根据地址、重量模拟计算）。

运单查询（核心功能）：

通过运单号或扫码查询快递物流详情。

以清晰的时间轴形式展示物流状态（如：已下单、快递员已取件、运输中、到达网点、派送中、已签收）。

支持同时添加并管理多个运单（我的快递）。

上门取件预约管理：

展示已预约的取件订单列表（待取件、已完成）。

允许修改取件时间或取消订单。

服务网点查找：

基于用户位置或手动输入地址，显示附近的快递网点、智能柜位置。

展示网点信息（名称、地址、距离、营业时间、联系方式）。

集成简易地图视图进行位置展示。

个人中心：

我的地址簿管理（增删改查）。

我的运单历史记录。

在线客服入口。

技术栈与框架要求：

前端：使用微信小程序原生框架，UI组件库推荐使用Vant Weapp，因其有丰富的表单和列表组件。需集成微信小程序地图组件（Map）。

后端（模拟/简化）：使用Node.js (Express) 提供API。本次重点模拟核心业务流程，数据库可先用JSON文件模拟。

关键集成（模拟）：物流查询API（可用模拟数据实现）、地图选址（模拟坐标点）、微信支付（模拟流程）。

交付要求：

第一步：输出项目整体目录结构。

第二步：输出核心数据结构的JSON格式定义（重点：User用户, Address地址, ExpressOrder寄件订单, Logistics物流轨迹）。

第三步：优先实现并交付以下关键页面的前端代码（WXML, WXSS, JS）和对应的后端API接口定义（路径、方法、请求/响应示例）：

快速寄件页：完整的表单验证与提交逻辑。

运单查询结果页：物流时间轴组件的实现与数据渲染。

服务网点页：静态网点数据列表与地图组件的集成展示。

Qwen3.5-122B-A10B 输出效果：

✅ 优势项：

核心功能完整实现（寄件页、运单查询页、网点页）。
业务逻辑完整，模拟了全套使用流程：寄件→下单→订单列表→运单查询/修改/取消→查看物流。
UI/UX 布局合理。适配移动端，卡片效果和交互反馈完善。

❌ 缺陷：

地图组件仅 CSS 占位而非真实地图集成。
表单验证不严谨，手机号格式、省份选择等未做深度验证。
未设置价格变量，不会根据用户选择而匹配价格。

案例 4：SVG 绘制

测试点：SVG语法，图形构建能力，创意与合理性平衡

提示词：绘制一只鹈鹕骑自行车的SVG

Qwen3.5-122B-A10B 输出了一份风格统一的扁平化 SVG 作品。主体与背景层次分明，线条简约流畅，鹈鹕绘制了表情特征，增加了画面趣味性；

缺陷也是显而易见的，鹈鹕的喙部特征不够明显，形象更接近鹅，自行车比例偏小，与鹈鹕腿部连接方式也不合理，比例把控和组件精准度仍存在问题。

IV. Qwen3.5-122B-A10B 模型实测结论

综合本次测评分数及真实任务表现，Qwen3.5-122B-A10B 展现了作为中型模型旗舰应有的水准，一定程度验证了“更多智能，更少算力”的技术主张。

当然，亮点之外，短板同样清晰，模型也有自己的舒适区和翻车点。以下三条结论，帮你快速理清：

🧠 1. 逻辑底座扎实：原生多模态不是噱头

这是 Qwen3.5-122B-A10B 最让人放心的一点。它不再是以往看图说话的浅层感知，而是将眼脑协同的推理能力发挥了出来。

模型训练采用的 Early Fusion（早期融合）技术，在预训练阶段就实现了视觉与语言的底层交织，而非简单的视觉外挂。这也解释了为什么其在 MathVision（86.2%）和 Mathvista（87.4%）等视觉推理基准上能大幅超越前代模型——它确实学会了看图解题而非看图说话。

在实测案例 1 的多模态推理中，这种“原生多模态”的优势也得到了验证，模型没有被视觉错觉干扰，而是主动拆解出了正确解法。

💡 结论：在处理需要结构化分析的视觉任务（如图表解读、几何题、流程图理解）时，Qwen3.5-122B-A10B 的原生多模态优势能够充分兑现。

🛠️ 2. 编程生产力：框架大师，细节需要补刀

122B 在代码生成中展现出的工程思维成熟度，是本次实测的亮点之一。无论是官网主页设计中主动补全的浅色/深色切换、悬停动效，还是快递小程序里从寄件到查询的完整业务流程串联，乃至“修改取件时间”“取消订单”等用户未明说但实际需要的交互，它都能基于对需求的理解自行补齐。

这种将预期之外的深度需求尽可能实现的能力，恰恰呼应了官方强调的强化学习泛化成果：通过百万级智能体环境的淬炼，模型在复杂任务中学会了自主规划与多步推演，也印证了其在 SWE-bench Verified 上的优异表现。

然而，大框架的稳健掩盖不了审美与细节把控上的短板。在经典的“鹈鹕骑自行车”案例中，模型对视觉元素的特征还原与比例关系把控仍有明显提升空间，这种“框架清晰、细节粗糙”的落差，恰恰反映出当前编码任务中模型面临的普遍挑战：语义理解与视觉精准度之间的鸿沟仍需弥合。

💡 结论：122B 是原型开发与框架搭建的绝佳帮手，尤其适合快速验证产品逻辑、输出可演示版本；但若要交付生产级代码，还需亲自把关细节。

💰 3. 综合性价比：务实派选手的错位竞争

最后，从市场定位来看，122B 的输入价格低至 $0.12/ 1M tokens（≤128K），输出 $0.92/ 1M tokens——这一成本水平远低于同等能力的闭源模型。更重要的是，官方披露的基础设施优化成果（原生 FP8 训练，显存占用降低约 50%），使得 122B 的部署门槛大幅降低，开发者甚至可以在消费级显卡上运行中型版本，真正兑现了“前沿能力，亲民成本”。

然而全能不等于全优，对于要求细腻审美和可直接交付的任务中，122B 显得务实有余、灵气不足。案例 5 的 SVG 虽结构完整但艺术感平平——这恰恰印证了 122B 的务实基因：它擅长解决问题，而非制造惊喜。官方配置的 201 种语言与 256K 超长上下文，指向的是长文档处理与全球化部署，而非创意设计赛道。

💡 结论：122B 最适合那些既要多模态理解，又要代码生成，还要长文本处理，同时预算与算力有限的务实团队。

Qwen 3.5 系列模型的发布，并不旨在往参数竞赛中再加一把火，而是用激活 10B 的效率逻辑，撕开了“堆到两三百B才叫强”的心理锚点。

当中型模型开始逼近前沿能力，巨型模型的统治力，就不再是理所当然。

V. 如何在 302.AI 上使用

1. 使用 302.AI 客户端

步骤指引：对话框内选择模型菜单

输入qwen3.5即可获取相应版本调用

2. 聊天机器人中使用

步骤指引：应用超市→聊天机器人→立即体验

选择模型：国产模型→qwen3.5 系列模型→确认

3. 使用模型 API

步骤指引：API超市→语言大模型→通义千问→qwen3.5系列模型

点击【Playground】在线调用 API

想即刻体验 Qwen3.5 系列模型？

👉立即注册免费试用302.AI，开启你的AI之旅！👈

为什么选择302.AI？

● 灵活付费：无需月费，按需付费，成本可控

● 丰富功能：从文字、图片到视频，应有尽有，满足多种场景需求

● 开源生态：支持开发者深度定制，打造专属AI应用

● 易用性：界面友好，操作简单，快速上手

Qwen3.5系列中型模型实测：原生多模态亮眼，中小团队利器丨302.AI 基准实验室