
gemini-2.5-flash-lite
Gemini2.5 模型家族中速度最快成本最低且兼具多模态处理能力的轻量级模型
2025-07-23
输入:
$0.1/1M tokens
输出:
$0.4/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
基本信息
- 开发者:Google DeepMind,为Gemini 2.5模型家族成员,2025年7月22日发布稳定版并全面可用。
- 定位:最快且成本最低的Gemini 2.5系列模型,主打高吞吐量、低延迟场景。
- 访问方式:开发者可通过代码指定“gemini-2.5-flash-lite”调用,支持Google AI Studio、Vertex AI平台。
核心特性
- 成本高效:输入token定价0.10美元/百万,输出token0.40美元/百万,音频输入价格较预览版降低40%。
- 低延迟:延迟低于Gemini 2.0 Flash-Lite和2.0 Flash,某车载诊断场景 latency 降低45%,功耗降低30%。
- 性能优越:多基准测试优于2.0 Flash-Lite,如AIME 2025数学测试思维模式得分63.1%,高于2.0 Flash的29.7%。
- 全功能支持:100万token上下文窗口,支持思维预算控制、Google搜索接地、代码执行等原生工具。
技术亮点
- 可控思维模式:可按需开启推理能力,思维模式下LiveCodeBench代码生成得分34.3%,非思维模式33.7%。
- 多模态能力:MMMU视觉推理得分72.9%,高于2.0 Flash的69.3%;Vibe-Eval图像理解思维模式得分57.5%。
- 长上下文处理:128k平均长度MRCR v2测试思维模式得分30.6%,优于2.0 Flash的19.0%。
市场影响
- 完善产品矩阵:作为2.5系列成本最低模型,助力大规模生产级应用落地。
- 赋能企业降本:低定价与低功耗特性,支持企业处理海量请求时控制成本。
- 提升开发效率:快速响应能力让开发者可高效构建动态洞察类应用。
应用场景
- latency 敏感任务:翻译、分类等高频场景,依托低延迟优势提升响应速度。
- 代码开发:支持UI代码编写、多语言代码编辑,SWE-bench Verified多轮尝试得分44.9%。
- 数据处理:可快速扫描海量输出,或转化大型PDF为交互式Web应用。
- 特定领域诊断:如车载诊断场景,实现低延迟、低功耗的故障分析。
相关测评:
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (4)
API价格表
$¥ 円 ₽