gemini-2.5-flash-nothink

gemini-2.5-flash-nothink

gemini-2.5-flash强制关闭思考模式
2025-06-24
语言大模型
Model capability: imageModel capability: thinkingModel capability: function_call
输入:
$0.3/1M tokens
输出:
$2.5/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

基本信息

Gemini 2.5 Flash 是 Gemini 2.X 模型系列 中针对成本-延迟比优化的高性能模型版本。该系列由 Google DeepMind 开发,主打“优秀推理能力 + 较低计算与延迟需求”的目标。在 Gemini 2.X 系列中,Flash 版本定位于“控制推理预算”的混合型模型,兼顾多模态理解与响应效率。

核心特性

  • 支持多模态输入,包括文本、图像、音频、视频等,能够跨媒体理解复杂内容。 
  • 拥有长上下文处理能力,能够应对百万以上 token 长度的输入情景,从而处理整本书、代码库、甚至多小时视频。 
  • 精心设计的「思考预算(Thinking Budget)」机制,用户/系统可控地调整模型推理的计算预算,从而在质量、成本与速度间取得灵活平衡。 
  • 面向实际应用场景,Flash 版本在保持强推理能力的同时,更注重延迟低、计算资源节省,更适合成本敏感或实时应用场景。 

技术亮点

  • 模型采用稀疏混合专家(Mixture-of-Experts, MoE)变换器结构,令模型容量与计算成本解耦,从而使得 Flash 版本在资源使用上更为高效。 
  • 在预训练、微调与强化学习(RL)阶段都进行了大幅改进,例如更大规模训练基础、更优的数据过滤与去重、更丰富的多模态训练样本,从而提升了模型的通用理解、工具调用、推理链路能力。 
  • 在多模态任务(例如视频理解、音频生成、长文本推理)中取得显著性能提升:例如 Flash 版本已超过 Gemini 1.5 系列完整版的能力,在推理、编码、多语言、多媒体理解方面实现跨越式进步。 
  • 通过「思考」机制,模型能够在推理过程中动态分配计算预算、自主决定思考时长,从而在复杂任务中获得更高准确率;而 Flash 版本保留此机制但优化为更低延迟/成本模式,适用于快速响应场景。

注:现已支持Gemini原生格式进行调用

相关测评:

《大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评》

《Gemini-2.5-pro vs. Claude-3.7-Sonnet 前端编程能力实战对决》

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (3)

API描述接口地址请求方法稳定性参数说明
Chat(聊天)
POST
稳定
查看详情
Chat(分析图片)
POST
稳定
查看详情
Chat(图片生成)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

gemini-2.5-flash-nothink

-
1000000

输入$0.3 / 1M tokens
输出$2.5 / 1M tokens

输入$0.3/ 1M tokens
输出$2.5/ 1M tokens
原价