
gemini-2.5-flash-nothink
gemini-2.5-flash强制关闭思考模式
2025-06-24
输入:
$0.3/1M tokens
输出:
$2.5/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
基本信息
Gemini 2.5 Flash 是 Gemini 2.X 模型系列 中针对成本-延迟比优化的高性能模型版本。该系列由 Google DeepMind 开发,主打“优秀推理能力 + 较低计算与延迟需求”的目标。在 Gemini 2.X 系列中,Flash 版本定位于“控制推理预算”的混合型模型,兼顾多模态理解与响应效率。
核心特性
- 支持多模态输入,包括文本、图像、音频、视频等,能够跨媒体理解复杂内容。
- 拥有长上下文处理能力,能够应对百万以上 token 长度的输入情景,从而处理整本书、代码库、甚至多小时视频。
- 精心设计的「思考预算(Thinking Budget)」机制,用户/系统可控地调整模型推理的计算预算,从而在质量、成本与速度间取得灵活平衡。
- 面向实际应用场景,Flash 版本在保持强推理能力的同时,更注重延迟低、计算资源节省,更适合成本敏感或实时应用场景。
技术亮点
- 模型采用稀疏混合专家(Mixture-of-Experts, MoE)变换器结构,令模型容量与计算成本解耦,从而使得 Flash 版本在资源使用上更为高效。
- 在预训练、微调与强化学习(RL)阶段都进行了大幅改进,例如更大规模训练基础、更优的数据过滤与去重、更丰富的多模态训练样本,从而提升了模型的通用理解、工具调用、推理链路能力。
- 在多模态任务(例如视频理解、音频生成、长文本推理)中取得显著性能提升:例如 Flash 版本已超过 Gemini 1.5 系列完整版的能力,在推理、编码、多语言、多媒体理解方面实现跨越式进步。
- 通过「思考」机制,模型能够在推理过程中动态分配计算预算、自主决定思考时长,从而在复杂任务中获得更高准确率;而 Flash 版本保留此机制但优化为更低延迟/成本模式,适用于快速响应场景。
注:现已支持Gemini原生格式进行调用
相关测评:
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (3)
API价格表
$¥ 円 ₽