企业级AI资源平台 - 302.AI | 按用量付费，全模型API接入，应用在线使用

gemini-2.5-flash-lite

gemini-2.5-flash-lite

Gemini2.5 模型家族中速度最快成本最低且兼具多模态处理能力的轻量级模型

2025-07-23

语言大模型

输入:

$0.1/1M tokens

输出:

$0.4/1M tokens

大额采购联系客户经理享专属优惠

稳定性

稳定

API介绍

基本信息

开发者：Google DeepMind，为Gemini 2.5模型家族成员，2025年7月22日发布稳定版并全面可用。
定位：最快且成本最低的Gemini 2.5系列模型，主打高吞吐量、低延迟场景。
访问方式：开发者可通过代码指定“gemini-2.5-flash-lite”调用，支持Google AI Studio、Vertex AI平台。

核心特性

成本高效：输入token定价0.10美元/百万，输出token0.40美元/百万，音频输入价格较预览版降低40%。
低延迟：延迟低于Gemini 2.0 Flash-Lite和2.0 Flash，某车载诊断场景 latency 降低45%，功耗降低30%。
性能优越：多基准测试优于2.0 Flash-Lite，如AIME 2025数学测试思维模式得分63.1%，高于2.0 Flash的29.7%。
全功能支持：100万token上下文窗口，支持思维预算控制、Google搜索接地、代码执行等原生工具。

技术亮点

可控思维模式：可按需开启推理能力，思维模式下LiveCodeBench代码生成得分34.3%，非思维模式33.7%。
多模态能力：MMMU视觉推理得分72.9%，高于2.0 Flash的69.3%；Vibe-Eval图像理解思维模式得分57.5%。
长上下文处理：128k平均长度MRCR v2测试思维模式得分30.6%，优于2.0 Flash的19.0%。

市场影响

完善产品矩阵：作为2.5系列成本最低模型，助力大规模生产级应用落地。
赋能企业降本：低定价与低功耗特性，支持企业处理海量请求时控制成本。
提升开发效率：快速响应能力让开发者可高效构建动态洞察类应用。

应用场景

latency 敏感任务：翻译、分类等高频场景，依托低延迟优势提升响应速度。
代码开发：支持UI代码编写、多语言代码编辑，SWE-bench Verified多轮尝试得分44.9%。
数据处理：可快速扫描海量输出，或转化大型PDF为交互式Web应用。
特定领域诊断：如车载诊断场景，实现低延迟、低功耗的故障分析。

相关测评：

《大模型排行榜第二！Gemini-2.5-flash-preview-05-20全方位对比测评》

《Gemini-2.5-pro vs. Claude-3.7-Sonnet 前端编程能力实战对决》

Playground

登录后，探索更多精彩功能！点击登录

API统计

API列表 (4)

API描述	接口地址	请求方法	稳定性	参数说明
v1beta（官方格式-聊天）	https://api.302.ai/v1beta/models/{model}:generateContent	POST	稳定	查看详情
暂无数据
Chat（聊天）	https://api.302.ai/v1/chat/completions	POST	稳定	查看详情
暂无数据
Chat（分析图片）	https://api.302.ai/v1/chat/completions	POST	稳定	查看详情
暂无数据
Chat（图片生成）	https://api.302.ai/v1/chat/completions	POST	稳定	查看详情
暂无数据

API价格表

$￥円 ₽

模型	说明	上下文	官网原价	302.AI价格

gemini-2.5-flash-lite

-

1000000

输入$0.1 / 1M tokens
输出$0.4 / 1M tokens

输入$0.1/ 1M tokens
输出$0.4/ 1M tokens
原价

猜你喜欢