导读:
谷歌于2月20日推出Gemini 3.1 Pro,以Sparse MoE架构和Deep Think深度思考模式为核心升级,支持100万Token上下文输入与64K输出上限。302.AI已接入模型API,本期实测涵盖逻辑数学、人类直觉、多模态推理及前端编程四大维度。测试结果显示,Gemini 3.1 Pro强势登顶302 Bench Lab的多模态模型榜首,展现出”不知疲倦的代码推土机”级工程能力,但在多模态视觉精准度与人性化思维方面仍有提升空间。本文通过详实案例,为开发者提供模型选型参考。
大模型圈子的更新节奏想必各位早已习惯,只要一家出招,那竞品们就会以周为单位,你方唱罢我登场。于是在春节期间的2月20日,终于轮到了谷歌出牌——Gemini 3.1 Pro 正式上线。

如果说之前的 Gemini 3.0 版本,谷歌成功证明了在 LLM 赛道上它仍是顶级玩家,那么这次的 3.1 Pro,更像是一个脱下西装、挽起袖子,准备上场掀桌子的六边形战士。
虽然版本号只是0.1的迭代,但并非仅是一次简单的修补,而是一次系统性的底层重构。我们先来看看它在官方参数和跑分榜单里秀出的肌肉:
🧠 优化“Deep Think”深度思考
Gemini 3.1 Pro 基于进阶的 Sparse MoE(稀疏混合专家)架构,并主打全新的 Deep Think (深度思考) 模式。这就好比给模型装上了一个智能调度中心,面对复杂问题,它能自动激活最匹配的“专家”,在推理时花更多时间进行多步骤拆解(Multi-step reasoning),从而实现到了“慢工出细活”。
💾 百万上下文,64K 输出
Gemini 3.1 Pro 保持了顶级的 100 万 Token 上下文输入,同时将输出上限拉到了 64K Token。现在,你可以把一整个几十万行的项目代码、加上一堆音频和视频全扔给它,让它一次性完整重构,中途不掉链子。
📊 跑分榜霸榜,智力碾压同级
在硬核逻辑和抽象推理的 ARC-AGI-2 榜单上,它狂砍 77.1% 的高分,几乎是上一代的两倍;而在第三方权威机构 Artificial Analysis 的智力指数测评中,它更是拿下了 57 分的新高,暂列榜单第一。不管是数学定理证明,还是复杂的代码接力,它都显得游刃有余。

💰 优秀的性价比
在 API 价格上,谷歌仍是对直接竞品 Claude Opus 4.6 (输入 $5 / 输出 $25)进行了精准狙击,Gemini 3.1 Pro 标准收费为输入 $2.00 / 输出 $12.00 (和Gemini 3.0 Pro保持不变)。花不到竞品一半的钱,干一样甚至更复杂的活。(注:模型当前知识库截止至2025年1月)
Gemini 3.1 Pro 发布后,海外开发者们已经给与了第一波反馈:
👍 夸的人说它“指令依从性史诗级强化”:
Reddit 网友实测:“我给了一份 75K token 长度的巨复杂输出协议,之前的 Gemini 3.0 100% 会翻车(直接忽略协议),但 3.1 Pro 居然分毫不差地按照我的要求输出了!虽然话没有 Opus 那么多,但这可用性绝对拉满了!”
还有开发者用它来跑本地代码测试:“速度是 3.0 的 2倍以上,而且居然在不用外部工具的情况下,用纯代码生成了极其丝滑的动画和 Web 游戏。”
🤔 踩的人则吐槽它的“波动性”:
也有用户指出:“别急着吹,刚发布的模型还没被‘降智(Lobotomized)’,过两周再看看。”更有部分测试者反馈,在处理战略规划类的长文档时,3.1 Pro 依然喜欢“偷懒”,给出的回复偏向于极度保守的技术总结,缺乏 Claude 4.6 那种深度战略洞察和丰富的创造力。
打个比方: 如果说 Claude Opus 4.6 是一位老谋深算的战略咨询顾问,文字优美且考虑周全;那 Gemini 3.1 Pro 更像是一个极度硬核、拿钱办事、话少活好的高级工程师。它可能不会给你写声情并茂的诗,但你要它解决复杂的代码 Bug、处理几十页的学术 PDF 或者搞个数学建模,它能以极高的性价比把活干得漂漂亮亮。
302.AI 已在第一时间接入了 Gemini 3.1 Pro API。 今天就来到我们的实测环节,用实战案例说话,让我们看看 Google 这次憋的大招,到底有多强大。
I. 实测模型基础信息
(1)实测模型在 302.AI 的价格:
| 模型名称 | 说明 | 上下文 | 302.AI内的价格 |
|---|---|---|---|
| gemini-3.1-pro-preview | 输入/输出 <= 200K tokens | 1000000 | 输入$2/ 1M tokens输出$12/ 1M tokens |
| 输入/输出> 200K tokens | 1000000 | 输入$4/ 1M tokens输出$18/ 1M tokens |
(2)测评目的:
本评测侧重模型对逻辑,数学,编程,,多模态,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。
(3)测评方法:
本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学(共10题),人类直觉(共7题),多模态(共20题)以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。
题库地址:https://docs.google.com/spreadsheets/d/1sBxs60yWsxc9I5Va8Rjc1_le1Omg2hOXbwqOzpImZio/edit?gid=0#gid=0
💡记分规则:
按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。
(4)测评工具:
- 所有模型均在302.AI Stuidio客户端内使用对应模型,使用统一的提示词,取第一次生成结果
- 编程测试使用302.AI Stuidio客户端的Vibe模式:调用Claude Code沙盒 + Skills(本期实测使用 brand-guidelines 和 frontend-design)
编程案例分数评级:
⭐⭐⭐⭐⭐ S 级(封神): 行业标杆,重新定义标准。
⭐⭐⭐⭐ A 级(卓越): 生产力合格,无明显短板。
⭐⭐⭐ B 级(优秀): 表现中规中矩,存在短板。
⭐⭐及以下 C级(不合格): 不可用,存在明显问题。
II. 测试结果总览
302.AI 题库测试结果:


302.AI 多模态模型测评分数榜单:

III. 案例展示
案例 1:人类直觉
提示词: 电子产品模糊选购:你计划购买一台“预算约1000-1500元的电子产品”,用途模糊为“日常娱乐和工作”,偏好“便携且耐用”。可选如平板、笔记本或蓝牙音箱。请步步制定购买决策:筛选产品类型、比较关键参数(如电池寿命、性能)、推荐具体型号,并解释如何平衡娱乐与工作需求,不允许忽略售后风险如退货政策.
🔍 测评要点:满分需产品筛选+参数对比+推荐理由+风险评估;偏好提取不准(如忽略便携)扣3分,无售后分析扣1分。多角度分析:边界如预算降至500元转二手,扩展到多人使用场景;关联AI购物助手如价格追踪工具; 推测用户意图测试个性化推荐,在消费中优化模糊需求; 信息扩展:模拟人类直觉的权衡,如便携性 vs. 性能体现多目标优化,与模糊决策模型类似加权评分系统。
Gemini 3.1 Pro 在人类直觉测试中表现出基础分析扎实,但欠缺更多角度的分析。
在本案例的分析中,未提及预算降低时的二手选项,未扩展至家庭或多人共用场景,也未关联购物助手(如价位追踪工具)。

案例 2:多模态推理
提示词:
下列哪条线段最长?
线段 A
线段 B
线段 C
线段 D 正确解法: 根据每条线段长和宽占用的方格数计算: A = 3² + 6² => 9 + 36 => 45 B = 5² + 5² => 25 + 25 => 50 C = 6² + 4² => 36 + 16 => 52 D = 7² + 1² => 49 + 1 => 50 因此线段C最长
Gemini 3.1 Pro 解法思路正确,但是格子数识别错误导致答案错误。

案例 3:前端编程-网页年俗日历
提示词:
设计一个超长的横向滚动网页。从腊月二十三(小年)到正月十五(元宵节),每滚动到一个日子,背景变化,弹出该天的习俗(扫尘、贴窗花、祭灶)和背后的典故。
视觉设计采用国潮插画风或皮影戏风格。
Gemini 3.1 Pro 输出效果:
✅ 优势项:
- 数据完整:总计24 个页面,覆盖从小年到元宵节的全部重要日子,每个日期的习俗和典故都整理并清晰呈现。
- SVG 图形实现:24个根据节日主题设计的不同图形,凸显创意和执行力。
❌ 缺陷:
- 习俗列表排版布局不够合理,部分较长名称可能显示不全或被迫换行。
附 Gemini 3 Pro 输出效果对比:总计 9 个页面,未能完整覆盖全部重要主题,视觉设计中规中矩。
| 测评点 | Gemini 3.1 Pro | Gemini 3 Pro |
| 功能完整性 | ⭐⭐⭐⭐⭐ | ⭐⭐ |
| 信息准确性 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 视觉设计 | ⭐⭐⭐⭐ | ⭐⭐⭐ |
案例 4:前端编程-小程序
提示词: 开发一个微信小程序打车界面:
– 地图显示(可mock)
– 定位和地址搜索
– 车型选择(经济/舒适/豪华)
– 预估价格和等待时间
– 一键叫车功能
– 简洁现代的UI设计
要求:代码可运行,交互流畅
Gemini 3.1 Pro 输出效果:
✅ 优势项:
- 功能完整度更佳。制作了订单状态页面,接单后自动跳转并显示车型信息、联系司机以及订单状态。
- 视觉细节更完善,功能模块规划更合理:图标、价格信息、位置显示都更为细节,交互反馈流畅。
❌ 缺陷:
- 采用mock地图,过于抽象,对于普通用户来说不够直观。
- 有出发地和目的地切换键,但无触发逻辑,点击后叫车信息未改变。
附 Gemini 3 Pro 效果对比:虽然功能完整度略基础,板块和图标显示整体性不足,但具备更出色的地图视觉化体验。
| 测评点 | Gemini 3.1 Pro | Gemini 3 Pro |
| 功能完整性 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 视觉设计 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 交互逻辑 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
IV. Gemini 3.1 Pro 模型实测结论

经过本次实测,Gemini 3.1 Pro 最终在302.AI 的大模型榜单上,以 37.30 的加权总分强势登顶,超越 Claude Opus 4.6 和前代模型 3.0 Pro.
它到底强在哪?又在哪些地方容易翻车?我们用大白话给你总结了三条核心结论:
🥇 1. 强大的“工程体力”:写代码不知疲倦的终极劳模
如果说这次 3.1 Pro 最大的实战惊喜是什么?绝对是它那 64K 的超大输出上限。
在案例3(网页年俗日历)中,这种优势体现得淋漓尽致。同样是面对“生成从腊月二十三到正月十五的滚屏日历”这个需求:
- 前代 3.0 Pro 像个体力不支的普通人,写到第 9 个页面就收工断尾了;
- 3.1 Pro 却一口气完成了总计24 个页面,连带 24 个不同主题的精美 SVG 图形代码也一次性搞定。
在案例4(小程序打车界面)中,它更是展现了极佳的功能完整度,连用户都没要求填写的“接单后状态页”、“司机信息”都主动做好了。
💡 结论: 它现在就是一台“不知疲倦的代码推土机”。对于前端开发、重构大型老旧代码库、或者需要一次性输出巨量文本的场景,它就是目前市面上最强大的模型,没有之一。
🤦♂️ 2. 多模态视觉能力还未完美
这是 3.1 Pro 目前为数不多能有些破绽的——它的逻辑推理(Deep Think)已趋于完美,但多模态视觉的精准度却退步了(榜单多模态单项分从 9.00 降到了 8.50)。
最典型的就是案例2(视觉错觉图判断线段长度)。 面对这种容易误导人类的图片:
- 它的脑子极其清醒: 知道不能靠目测,主动列出了完美的数学解题思路(利用水平和垂直跨越的方格数,用勾股定理算平方和)。
- 它的眼睛却“瞎”了: 居然把格子数数错了!硬生生把正确的线段C算错,得出了错误答案D。
💡 结论: 极高的逻辑智商,却被视觉能力拖了后腿。在处理复杂的财务图表、精细的工程图纸识别时,你最好不要完全信任它的视觉能力,但你可以相对信任它提出的解题思路。
🤖 3. 扎实但木讷的“直男思维”
在案例1(人类直觉与购物推荐)中,3.1 Pro 展现出了极强的客观分析能力,精准帮你排除了不合适的选项。但它就像一个老实巴交的专柜推销员,你问什么,它答什么,一句废话没有。
对比之下,Claude 4.6 能多想一步(比如建议你买二手、考虑家庭共享、甚至推荐比价插件),而 3.1 Pro 缺乏这种发散性的、充满人情味的多角度思考。
💡 结论:结合案例3和4中出现的“文字排版被挤压”、“地图Mock过于抽象”、“切换按钮没写逻辑”等小瑕疵,我们可以看出,它能把大框架搭得极其漂亮,但对那些需要“人类直觉”和“细腻审美”的边角料,它可能会忽略掉。
基于上述结论:
✅ 建议用 Gemini 3.1 Pro 做这些事:
- 甩大几十万行的代码给它:让它做全局重构、找深层 Bug,或者一次性开发完整的单页面级应用。
- 硬核逻辑与数学推演:复杂的算法设计、论文里的公式推导,开启它的 Deep Think,相信它的逻辑推理能力。
❌ 尽量避开这些场景:
- 需要高精度的“数像素”视觉任务:别让它去数照片里有几个人、图表里第几个柱子最高,它有可能犯错。
- 极度需要同理心的文案创作:如果你想写一篇深情并茂的公关稿,或者需要极高情商的战略规划,它绝非最佳选择。
302.AI 已全面上线 Gemini 3.1 Pro API,包含最新版的多模态与超长上下文能力,欢迎各位用户前往控制台,亲自体验这位六边形战士。
V. 如何在 302.AI 上使用 Gemini 3.1 Pro
1. 使用302.AI客户端
步骤指引:对话框内选择模型菜单

输入gemini即可获取相应版本调用

2. 聊天机器人中使用
步骤指引 :应用超市→聊天机器人→立即体验
选择模型:Google模型→Gemini-3.1-Pro→确认

3. 使用模型 API
步骤指引:API超市→语言大模型→Gemini→Gemini-3.1-Pro


点击【Playground】在线调用 API

想即刻体验 Gemini 3.1 Pro 模型?
👉立即注册免费试用302.AI,开启你的AI之旅!👈
为什么选择302.AI?
● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手
