Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室

阿里通义千问团队在推出Qwen3.5-397b的旗舰模型后,于2月25日带来了Qwen3.5 中型模型系列的更新。与以往“更大参数=更强能力”的惯性思维不同,这次官方打出了“More intelligence, less compute”(更聪明的智能,更少的算力)的旗号。

Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室

该系列包含三款开源模型及一项托管服务:

  • Qwen3.5-122B-A10B(MoE 架构,激活 10B)
  • Qwen3.5-35B-A3B(MoE 架构,激活 3B)
  • Qwen3.5-27B(Dense 密集架构)
  • Qwen3.5-Flash:与 35B-A3B 对齐的生产托管版本,默认支持 1M 上下文长度并预装官方工具链

其中,Qwen3.5-35B-A3B 凭借仅激活3B参数的惊人效率,在多项基准上超越半年前发布的 235B 参数量的前代模型,有力印证了架构创新与数据质量的关键作用;而 Qwen3.5-122B-A10B 与 27B 则进一步缩小了中型模型与前沿模型之间的性能差距,尤其在复杂智能体场景中表现突出

📑模型矩阵:精准定位,各擅胜场

模型系列架构类型关键参数核心定位突出能力标签
Qwen3.5-122B-A10BMoE总参数122B,激活10B大而全的综合旗舰多模态理解、视频分析、多语言知识、复杂智能体
Qwen3.5-35B-A3BMoE总参数35B,激活3B深度智能体专家智能体规划、深度推理、任务调度、空间智能
Qwen3.5-27BDense总参数27B轻量化部署首选代码生成、长文本处理、数学推理、高工程实用度
Qwen3.5-Flash托管服务与35B-A3B对齐生产级API服务1M上下文、内置工具链、超低延迟与成本

核心升级:五大维度重塑模型能力

相较于上一代 Qwen3 系列,Qwen3.5 中型模型在技术路径上实现了系统性跃升,具体体现为以下五大亮点:

🎯 1. 创新架构:四两拨千斤的效率革命

新系列采用了 “门控增量网络 + 稀疏混合专家(MoE)” 的全新架构组合。

简单来说,就像一家公司不再让所有员工处理每一件琐事,而是根据任务类型,只唤醒最擅长该领域的几位专家。这种精准调度的方式,让 Qwen3.5-35B-A3B 仅激活 30 亿参数,就能在多项测试中超越前代 2350 亿参数的巨型模型——相当于用一辆摩托车的油耗,跑出了重型卡车的载重能力。、

架构效率>堆参数,这是本次升级最核心的信号

🧠 2. 能力进化:眼脑并用,应对真实难题

  • 原生多模态,视觉理解浑然天成:Qwen3.5 在预训练阶段就把文字和图像放在一起学习,而不是像上一代那样先学文字再补视觉插件。这种训练方式,让它对图表、照片、视频的理解更自然。在 MathVision(数学图表理解)、MMMU(多学科多模态理解)等视觉推理考试中,122B 版本的得分甚至超过了上一代专门优化的视觉模型。
  • 强化学习加练,应对复杂游刃有余:研发团队把模型扔进了百万级规模的智能体实战演练场,在各种复杂多变的任务中强化它的规划与工具调用能力。无论是需要多步推理的 DeepPlanning 测试,还是考验调用外部工具的 BFCL-V4,Qwen3.5 都表现得更像一位沉着的老手,能自主拆解问题、调用资源、完成目标。

🖥️ 3. 部署友好:百万 token 窗口,普通显卡也能跑

  • 超长上下文 + 多语言覆盖:全系列标配 25.6 万 token 的上下文窗口,配合扩容后的 25 万词表,编码效率提升 10%~60%。这意味着它能一口气读完《三体》三部曲再加几十篇参考文献,同时支持 201 种语言——从英语到冷门语种,都不在话下。
  • 基础设施优化,显存压力骤减:通过原生 FP8 低精度训练、训推架构解耦等底层优化,多模态训练效率几乎追平纯文本训练,显存占用降低约50%。这意味着,即使是 122B 这样的大块头,部署门槛也被大幅拉低,开发者甚至可以在消费级显卡上跑起中型版本,真正实现了前沿能力,亲民成本。
Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室

302.AI 现已接入 Qwen3.5 系列模型 API,用户可按需调用,本期测评,我们将以 Qwen3.5-122B-A10B 为代表,多维度拆解其真实任务表现能力。


I. 实测模型基础信息

(1)实测模型在 302.AI 的价格:

模型名称上下文说明302.AI内的价格
Qwen3.5-122B-A10B992000Input ≤ 128K输入 $0.12/ 1M tokens输出 $0.92/ 1M tokens
128K-256K输入 $0.29/ 1M tokens输出 $2.29/ 1M tokens
Qwen3.5-35B-A3B992000Input ≤ 128K输入 $0.06/ 1M tokens输出 $0.46/ 1M tokens
128K-256K输入 $0.23/ 1M tokens输出 $1.83/ 1M tokens
Qwen3.5-27B992000Input ≤ 128K输入 $0.09/ 1M tokens输出 $0.69/ 1M tokens
128K-256K输入 $0.26/ 1M tokens输出 $2.06/ 1M tokens
Qwen3.5-Flash992000Input ≤ 128K输入 $0.03/ 1M tokens输出 $0.29/ 1M tokens
128K-256K输入 $0.12/ 1M tokens输出 $1.15/ 1M tokens
256K-1M输入 $0.18/ 1M tokens输出 $1.72/ 1M tokens

(2)测评目的:

本评测侧重模型对逻辑,数学,编程,多模态,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。

(3)测评方法:

本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学(共10题),人类直觉(共7题),多模态(共20题)以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。

题库地址:https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0

💡记分规则:

按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。

(4)测评工具:

  • 所有模型均在302.AI Stuidio客户端内使用对应模型,使用统一的提示词,取第一次生成结果
  • 编程测试使用302.AI Stuidio客户端的Vibe模式:调用Claude Code沙盒 + Skills(本期实测使用 brand-guidelines 和 frontend-design)

编程案例分数评级:

⭐⭐⭐⭐⭐ S 级(封神): 行业标杆,重新定义标准。

⭐⭐⭐⭐ A 级(卓越): 生产力合格,无明显短板。

⭐⭐⭐ B 级(优秀): 表现中规中矩,存在短板。

⭐⭐及以下 C级(不合格): 不可用,存在明显问题。


II. 测试结果总览

302.AI 多模态模型测评分数榜单:

Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室

III. 案例展示

案例 1:多模态逻辑推理

测试点:多模态识别,细粒度感知,逻辑推理,公式运用

提示词

下列哪条线段最长?

线段 A

线段 B

线段 C

线段 D 正确解法: 根据每条线段长和宽占用的方格数计算: A = 3² + 6² => 9 + 36 => 45 B = 5² + 5² => 25 + 25 => 50 C = 6² + 4² => 36 + 16 => 52 D = 7² + 1² => 49 + 1 => 50 因此线段C最长

Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室

Qwen3.5-122B-A10B 识别推理正确:

细粒度感知和计算逻辑都没有问题

Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室

案例 2:前端编程-网页制作

测试点:信息集成,Vibe Coding,技术理解与转译能力

提示词:Create a homepage for Qwen3.5 Medium Model Series that shows off three models (122B, 35B, 27B) and Flash API. Make it look modern and techy. Include a comparison table, key features, and performance highlights. Generate logo and some demo visuals. Keep it clean.

翻译:为 Qwen3.5 中型模型系列创建一个主页,展示三款型号(122B、35B 和 27B)以及 Flash API。设计风格要现代且科技感十足。包含对比表格、主要功能和性能亮点。生成徽标和一些演示图片。保持页面简洁明了。

Qwen3.5-122B-A10B 输出效果:

✅ 优势项:

  • 网页结构和模型信息准确完整,数据展示形式分模型卡片、对比表格与核心亮点。
  • 科技感页面设计,增加了浅色/深色模式,悬停动画和过渡流畅。

❌ 缺陷:

  • 数据呈现不够直观,可视化处理不足,API调用缺乏实际交互演示。
Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室

案例 3:前端编程-小程序

测试点:前端设计,系统架构设计,用户体验思维

提示词

请担任高级全栈架构师和产品经理的角色,为我设计和生成一个类似“菜鸟裹裹”或“顺丰速运”的快递服务微信小程序的项目方案与核心代码。

一、项目核心目标

开发一个集“快递寄件、运单查询、上门取件预约、服务点查找”于一体的综合性快递服务小程序。核心特点是:流程标准化、状态透明化、操作便捷化。

二、详细需求说明

  1. 用户端核心功能模块:
    1. 首页/快速寄件:
      • 核心寄件表单:寄/收件人信息(姓名、电话、地址)、物品信息(类型、重量/数量、备注)、取件时间选择。
      • 一键复制常用地址或从地址簿选择。
      • 实时运费估算功能(根据地址、重量模拟计算)。
    2. 运单查询(核心功能):
      • 通过运单号或扫码查询快递物流详情。
      • 以清晰的时间轴形式展示物流状态(如:已下单、快递员已取件、运输中、到达网点、派送中、已签收)。
      • 支持同时添加并管理多个运单(我的快递)。
    3. 上门取件预约管理:
      • 展示已预约的取件订单列表(待取件、已完成)。
      • 允许修改取件时间或取消订单。
    4. 服务网点查找:
      • 基于用户位置或手动输入地址,显示附近的快递网点、智能柜位置。
      • 展示网点信息(名称、地址、距离、营业时间、联系方式)。
      • 集成简易地图视图进行位置展示。
    5. 个人中心:
      • 我的地址簿管理(增删改查)。
      • 我的运单历史记录。
      • 在线客服入口。
  2. 技术栈与框架要求:
    1. 前端: 使用微信小程序原生框架,UI组件库推荐使用Vant Weapp,因其有丰富的表单和列表组件。需集成微信小程序地图组件(Map)。
    2. 后端(模拟/简化): 使用Node.js (Express) 提供API。本次重点模拟核心业务流程,数据库可先用JSON文件模拟。
    3. 关键集成(模拟): 物流查询API(可用模拟数据实现)、地图选址(模拟坐标点)、微信支付(模拟流程)。
  3. 交付要求:
    1. 第一步: 输出项目整体目录结构。
    2. 第二步: 输出核心数据结构的JSON格式定义(重点:User用户, Address地址, ExpressOrder寄件订单, Logistics物流轨迹)。
    3. 第三步: 优先实现并交付以下关键页面的前端代码(WXML, WXSS, JS) 和对应的后端API接口定义(路径、方法、请求/响应示例):
      • 快速寄件页:完整的表单验证与提交逻辑。
      • 运单查询结果页:物流时间轴组件的实现与数据渲染。
      • 服务网点页:静态网点数据列表与地图组件的集成展示。

Qwen3.5-122B-A10B 输出效果:

✅ 优势项:

  • 核心功能完整实现(寄件页、运单查询页、网点页)。
  • 业务逻辑完整,模拟了全套使用流程:寄件→下单→订单列表→运单查询/修改/取消→查看物流。
  • UI/UX 布局合理。适配移动端,卡片效果和交互反馈完善。

❌ 缺陷:

  • 地图组件仅 CSS 占位而非真实地图集成。
  • 表单验证不严谨,手机号格式、省份选择等未做深度验证。
  • 未设置价格变量,不会根据用户选择而匹配价格。

案例 4:SVG 绘制

测试点:SVG语法,图形构建能力,创意与合理性平衡

提示词:绘制一只鹈鹕骑自行车的SVG

Qwen3.5-122B-A10B 输出了一份风格统一的扁平化 SVG 作品。主体与背景层次分明,线条简约流畅,鹈鹕绘制了表情特征,增加了画面趣味性;

缺陷也是显而易见的,鹈鹕的喙部特征不够明显,形象更接近鹅,自行车比例偏小,与鹈鹕腿部连接方式也不合理,比例把控和组件精准度仍存在问题。

Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室

IV. Qwen3.5-122B-A10B 模型实测结论

Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室

综合本次测评分数及真实任务表现,Qwen3.5-122B-A10B 展现了作为中型模型旗舰应有的水准,一定程度验证了“更多智能,更少算力”的技术主张。

当然,亮点之外,短板同样清晰,模型也有自己的舒适区和翻车点。以下三条结论,帮你快速理清:

🧠 1. 逻辑底座扎实:原生多模态不是噱头

这是 Qwen3.5-122B-A10B 最让人放心的一点。它不再是以往看图说话的浅层感知,而是将眼脑协同的推理能力发挥了出来。

模型训练采用的 Early Fusion(早期融合)技术,在预训练阶段就实现了视觉与语言的底层交织,而非简单的视觉外挂。这也解释了为什么其在 MathVision(86.2%)和 Mathvista(87.4%)等视觉推理基准上能大幅超越前代模型——它确实学会了看图解题而非看图说话。

在实测案例 1 的多模态推理中,这种“原生多模态”的优势也得到了验证,模型没有被视觉错觉干扰,而是主动拆解出了正确解法。

💡 结论:在处理需要结构化分析的视觉任务(如图表解读、几何题、流程图理解)时,Qwen3.5-122B-A10B 的原生多模态优势能够充分兑现。

🛠️ 2. 编程生产力:框架大师,细节需要补刀

122B 在代码生成中展现出的工程思维成熟度,是本次实测的亮点之一。无论是官网主页设计中主动补全的浅色/深色切换、悬停动效,还是快递小程序里从寄件到查询的完整业务流程串联,乃至“修改取件时间”“取消订单”等用户未明说但实际需要的交互,它都能基于对需求的理解自行补齐。

这种将预期之外的深度需求尽可能实现的能力,恰恰呼应了官方强调的强化学习泛化成果:通过百万级智能体环境的淬炼,模型在复杂任务中学会了自主规划与多步推演,也印证了其在 SWE-bench Verified 上的优异表现。

然而,大框架的稳健掩盖不了审美与细节把控上的短板。在经典的“鹈鹕骑自行车”案例中,模型对视觉元素的特征还原与比例关系把控仍有明显提升空间,这种“框架清晰、细节粗糙”的落差,恰恰反映出当前编码任务中模型面临的普遍挑战:语义理解与视觉精准度之间的鸿沟仍需弥合。

💡 结论:122B 是原型开发与框架搭建的绝佳帮手,尤其适合快速验证产品逻辑、输出可演示版本;但若要交付生产级代码,还需亲自把关细节。

💰 3. 综合性价比:务实派选手的错位竞争

最后,从市场定位来看,122B 的输入价格低至 $0.12/ 1M tokens(≤128K),输出 $0.92/ 1M tokens——这一成本水平远低于同等能力的闭源模型。更重要的是,官方披露的基础设施优化成果(原生 FP8 训练,显存占用降低约 50%),使得 122B 的部署门槛大幅降低,开发者甚至可以在消费级显卡上运行中型版本,真正兑现了“前沿能力,亲民成本”。

然而全能不等于全优,对于要求细腻审美和可直接交付的任务中,122B 显得务实有余、灵气不足。案例 5 的 SVG 虽结构完整但艺术感平平——这恰恰印证了 122B 的务实基因:它擅长解决问题,而非制造惊喜。官方配置的 201 种语言与 256K 超长上下文,指向的是长文档处理与全球化部署,而非创意设计赛道。

💡 结论:122B 最适合那些既要多模态理解,又要代码生成,还要长文本处理,同时预算与算力有限的务实团队。

Qwen 3.5 系列模型的发布,并不旨在往参数竞赛中再加一把火,而是用激活 10B 的效率逻辑,撕开了“堆到两三百B才叫强”的心理锚点。

当中型模型开始逼近前沿能力,巨型模型的统治力,就不再是理所当然。


V. 如何在 302.AI 上使用

1. 使用 302.AI 客户端

步骤指引:对话框内选择模型菜单

Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室

输入qwen3.5即可获取相应版本调用

Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室

2. 聊天机器人中使用

步骤指引 :应用超市→聊天机器人→立即体验

Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室

选择模型:国产模型→qwen3.5 系列模型→确认

Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室

3. 使用模型 API

步骤指引:API超市→语言大模型→通义千问→qwen3.5系列模型

Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室
Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室

点击【Playground】在线调用 API

Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室

想即刻体验 Qwen3.5 系列模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

Qwen3.5系列中型模型实测:原生多模态亮眼,中小团队利器丨302.AI 基准实验室
All Rights Reserved by 302.AI
喜欢 (0)
302.AI302.AI
上一页 2026 年 3 月 2 日 下午5:58
下一页 2026 年 3 月 6 日 下午5:58

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注