
gemini-2.0-flash
Gemini第二代主力模型,拥有100万标记的上下文窗口
2025-02-06
输入:
$0.11/1M tokens
输出:
$0.44/1M tokens
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
Gemini 2.0 由Google DeepMind 推出,是继 Gemini 1.0 与 1.5 后的新一代大型语言模型。它具备原生多模态能力,能同时理解和生成文本、图像、音频与视频,实现跨模态推理与交互。Gemini 2.0 增强了推理与工具调用水平,并引入可控的 Agent式任务执行,适合复杂应用场景。通过新的强化学习机制,模型能更准确地自我评估与优化回答,表现更稳健。此外,它提供标准版与低延迟的Flash版本,兼顾高准确度与大规模应用需求。
注:现已支持Gemini原生格式进行调用
核心特性
- 超低延迟·高吞吐:通过架构优化和 Flash Attention 机制,实现响应速度约为前代 Gemini 1.5 Pro 的两倍,适合高频交互场景。
- 全方位多模态输入:原生支持文本、图像、音频、视频等多种数据类型,能够在同一次调用中同时处理并生成这些模态的输出。
- 大规模上下文窗口:输入上限达 1 000 000 token(约 104 8576 token),输出上限 8192 token,能够一次性理解和处理海量信息。
- 原生工具调用(Agent):内置对 Google 搜索、代码执行、第三方函数等工具的调用能力,支持实时音视频流交互和任务自动化。
- 多语言与可访问性:具备多语言理解与生成、实时翻译、文本转语音(TTS)等功能,可用于无障碍交互和跨语言客服。
技术亮点
- Flash Attention:专为长序列设计的高效注意力机制,显著提升长文本和大上下文的推理速度与计算效率。
- 多模态融合推理:统一的 Transformer‑X 架构实现文本、图像、音频、视频的跨模态特征对齐,支持复杂的视觉‑语言、视听‑语言任务。
- 高效轻量化模型:在保持 Gemini 2.0 系列核心能力的同时,参数规模与计算需求被压缩,降低使用成本,适合大规模部署。
- 深度可视化推理:模型能够输出推理过程的可视化轨迹,帮助用户理解决策路径,提升透明度与可解释性。
- 与 Google Workspace 深度集成:可直接在 Docs、Gmail 等应用中完成文档摘要、邮件草拟、表格生成等业务流程。
相关测评:
《o3-mini vs. Gemini 2.0 pro vs. DeepSeek-R1实测对比》
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (4)
API价格表
$¥ 円 ₽