gemini-2.5-flash-lite

gemini-2.5-flash-lite

Gemini2.5 模型家族中速度最快成本最低且兼具多模态处理能力的轻量级模型
2025-07-23
语言大模型
Model capability: imageModel capability: function_call
输入:
$0.1/1M tokens
输出:
$0.4/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定

API介绍

基本信息

  • 开发者:Google DeepMind,为Gemini 2.5模型家族成员,2025年7月22日发布稳定版并全面可用。
  • 定位:最快且成本最低的Gemini 2.5系列模型,主打高吞吐量、低延迟场景。
  • 访问方式:开发者可通过代码指定“gemini-2.5-flash-lite”调用,支持Google AI Studio、Vertex AI平台。

核心特性

  • 成本高效:输入token定价0.10美元/百万,输出token0.40美元/百万,音频输入价格较预览版降低40%。
  • 低延迟:延迟低于Gemini 2.0 Flash-Lite和2.0 Flash,某车载诊断场景 latency 降低45%,功耗降低30%。
  • 性能优越:多基准测试优于2.0 Flash-Lite,如AIME 2025数学测试思维模式得分63.1%,高于2.0 Flash的29.7%。
  • 全功能支持:100万token上下文窗口,支持思维预算控制、Google搜索接地、代码执行等原生工具。

技术亮点

  • 可控思维模式:可按需开启推理能力,思维模式下LiveCodeBench代码生成得分34.3%,非思维模式33.7%。
  • 多模态能力:MMMU视觉推理得分72.9%,高于2.0 Flash的69.3%;Vibe-Eval图像理解思维模式得分57.5%。
  • 长上下文处理:128k平均长度MRCR v2测试思维模式得分30.6%,优于2.0 Flash的19.0%。

市场影响

  • 完善产品矩阵:作为2.5系列成本最低模型,助力大规模生产级应用落地。
  • 赋能企业降本:低定价与低功耗特性,支持企业处理海量请求时控制成本。
  • 提升开发效率:快速响应能力让开发者可高效构建动态洞察类应用。

应用场景

  • latency 敏感任务:翻译、分类等高频场景,依托低延迟优势提升响应速度。
  • 代码开发:支持UI代码编写、多语言代码编辑,SWE-bench Verified多轮尝试得分44.9%。
  • 数据处理:可快速扫描海量输出,或转化大型PDF为交互式Web应用。
  • 特定领域诊断:如车载诊断场景,实现低延迟、低功耗的故障分析。


相关测评:

《大模型排行榜第二!Gemini-2.5-flash-preview-05-20全方位对比测评》

《Gemini-2.5-pro vs. Claude-3.7-Sonnet 前端编程能力实战对决》

Playground

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (4)

API描述接口地址请求方法稳定性参数说明
v1beta(官方格式-聊天)
POST
稳定
查看详情
Chat(聊天)
POST
稳定
查看详情
Chat(分析图片)
POST
稳定
查看详情
Chat(图片生成)
POST
稳定
查看详情

API价格表

$
模型说明上下文官网原价302.AI价格

gemini-2.5-flash-lite

-
1000000

输入$0.1 / 1M tokens
输出$0.4 / 1M tokens

输入$0.1/ 1M tokens
输出$0.4/ 1M tokens
原价