gemini-3-flash-preview

gemini-3-flash-preview

Google推出的轻量级旗舰模型,专为高吞吐、低延迟场景设计,同时兼顾速度、智能与成本
2025-12-18
语言大模型
Model capability: imageModel capability: function_call
输入:
$0.5/1M tokens
输出:
$3/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

Gemini 3 Flash 是谷歌(Google)推出的轻量级旗舰级 AI 模型,核心定位为「复杂任务的极速响应引擎」,专为高吞吐、低延迟场景设计,在保持强大多模态理解能力的同时,显著优化推理成本与速度,以四分之一成本提供 Pro 级推理能力,打破速度、智能与成本的不可能三角”,覆盖开发者、企业与普通用户全场景,实现从高频开发到日常交互的极速响应,适合金融风控、法律文档分析、客服智能体等场景。

  • 核心突破:无需在“速度、智能、成本”中妥协——比前代 Gemini 2.5 Pro 快 3 倍,性能反超;价格仅为 Gemini 3 Pro 的 1/4,同时支持上下文缓存、批量处理等成本优化方案。
  • 编码能力反超:SWE-bench Verified 编码基准测试得分 78%,超越了 2.5 系列和Gemini 3 Pro,成为智能体编码的性价比首选。
  • 多模态增强:新增高级视觉与空间推理能力,支持代码执行功能(可缩放、计数、编辑视觉输入),视频分析速度比 2.5 Pro 快 4 倍,OCR 精度提升。
  • 成本优化方案:开启上下文缓存可省 90% 重复 token 成本,使用 Batch API 异步处理再省 50%,且调用速率更高。
  • 大规模部署友好:支持 100 万 token 输入上下文,可处理长文档、视频流等大体积数据,同时保持低延迟(同步场景支持生产级速率)。
  • 创意与效率工具:支持语音生成 App 原型(零基础几分钟出功能框架)、视频内容总结、多语言问答,查天气、规划旅行等需求可生成可视化结果(如带日历的赛程表)。

───────────────────────────────────────────────────────────────────

核心能力

极速响应:218 tokens/秒高速输出,适合实时对话、流式处理与高并发 API 调用,处理 512px 图像、简单代码生成等任务“秒出结果”。 

🧠 灵活推理控制:thinking_level 参数支持“low”(快思)与“high”(深思)模式,精准平衡速度、成本与推理深度

👁️ 多模态全能处理:原生支持图像、音频、视频解析,无需额外模型即可完成跨模态任务,轻松完成高级视觉推理、视频知识提取、PDF 高精度解析、复杂图表合成。 

📊 超长上下文驾驭:1M token 输入窗口 + 64K 输出能力,可一次性分析整份财报、技术文档或长篇小说

🛠️ 工具链深度协同:内置 Google 搜索与代码执行,自动验证事实、检索最新数据,确保生成内容准确可靠

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (4)

API描述接口地址请求方法稳定性参数说明
v1beta(官方格式-聊天)
POST
稳定
查看详情
v1beta(官方格式-流式)
POST
稳定
查看详情
Chat(聊天)
POST
稳定
查看详情
Chat(分析图片)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

gemini-3-flash-preview

gemini-3-flash-preview
1000000

输入$0.5 / 1M tokens
输出$3 / 1M tokens

输入$0.5/ 1M tokens
输出$3/ 1M tokens
原价