企业级AI资源平台 - 302.AI | 按用量付费，全模型API接入，应用在线使用

gemini-2.5-flash-nothink

gemini-2.5-flash强制关闭思考模式

2025-06-24

语言大模型

输入:

$0.3/1M tokens

输出:

$2.5/1M tokens

大额采购联系客户经理享专属优惠

稳定性

稳定

API介绍

基本信息

Gemini 2.5 Flash 是 Gemini 2.X 模型系列中针对成本-延迟比优化的高性能模型版本。该系列由 Google DeepMind 开发，主打“优秀推理能力 + 较低计算与延迟需求”的目标。在 Gemini 2.X 系列中，Flash 版本定位于“控制推理预算”的混合型模型，兼顾多模态理解与响应效率。

核心特性

支持多模态输入，包括文本、图像、音频、视频等，能够跨媒体理解复杂内容。
拥有长上下文处理能力，能够应对百万以上 token 长度的输入情景，从而处理整本书、代码库、甚至多小时视频。
精心设计的「思考预算（Thinking Budget）」机制，用户/系统可控地调整模型推理的计算预算，从而在质量、成本与速度间取得灵活平衡。
面向实际应用场景，Flash 版本在保持强推理能力的同时，更注重延迟低、计算资源节省，更适合成本敏感或实时应用场景。

技术亮点

模型采用稀疏混合专家（Mixture-of-Experts, MoE）变换器结构，令模型容量与计算成本解耦，从而使得 Flash 版本在资源使用上更为高效。
在预训练、微调与强化学习（RL）阶段都进行了大幅改进，例如更大规模训练基础、更优的数据过滤与去重、更丰富的多模态训练样本，从而提升了模型的通用理解、工具调用、推理链路能力。
在多模态任务（例如视频理解、音频生成、长文本推理）中取得显著性能提升：例如 Flash 版本已超过 Gemini 1.5 系列完整版的能力，在推理、编码、多语言、多媒体理解方面实现跨越式进步。
通过「思考」机制，模型能够在推理过程中动态分配计算预算、自主决定思考时长，从而在复杂任务中获得更高准确率；而 Flash 版本保留此机制但优化为更低延迟/成本模式，适用于快速响应场景。

注：现已支持Gemini原生格式进行调用

Playground

登录后，探索更多精彩功能！点击登录

API统计

API列表 (3)

API描述	接口地址	请求方法	稳定性	参数说明
Chat（聊天）	https://api.302.ai/v1/chat/completions	POST	稳定	查看详情
暂无数据
Chat（分析图片）	https://api.302.ai/v1/chat/completions	POST	稳定	查看详情
暂无数据
Chat（图片生成）	https://api.302.ai/v1/chat/completions	POST	稳定	查看详情
暂无数据

API价格表

$￥円 ₽

模型	说明	上下文	官网原价	302.AI价格

gemini-2.5-flash-nothink

1000000

gemini-2.5-flash-nothink

API介绍

基本信息

核心特性

技术亮点

Playground

API统计

API列表 (3)

API价格表

gemini-2.5-flash-nothink

输入$0.3 / 1M tokens
输出$2.5 / 1M tokens

输入$0.3/ 1M tokens
输出$2.5/ 1M tokens
原价

猜你喜欢

快捷访问

帮助与支持

法律声明

gemini-2.5-flash-nothink

API介绍

基本信息

核心特性

技术亮点

Playground

API统计

API列表 (3)

API价格表

gemini-2.5-flash-nothink

输入$0.3 / 1M tokens输出$2.5 / 1M tokens

输入$0.3/ 1M tokens输出$2.5/ 1M tokens原价

猜你喜欢

输入$0.3 / 1M tokens
输出$2.5 / 1M tokens

输入$0.3/ 1M tokens
输出$2.5/ 1M tokens
原价