
SenseNova-V6-Pro
商汤原生多模态通用大模型旗舰版本
2025-04-09
输入:
$0.55/1M tokens
输出:
$1.43/1M tokens
大额采购联系客户经理享专属优惠
API介绍
SenseNova-V6-Pro 是商汤科技发布的原生多模态通用大模型旗舰版本,作为 “日日新 SenseNova V6” 大模型体系的核心,其核心定位为“原生融合文本、图像与视频 + 全局记忆驱动的长思维链推理 + 10分钟级视频全帧理解”的新一代多模态智能基座。
- 超大规模混合专家架构:采用 6200亿参数 的 MoE(Mixture of Experts)设计,在保持高效推理的同时显著提升对复杂多模态任务的建模能力
- 原生多模态融合:不依赖中间对齐模块,直接在统一架构中处理文本、静态图像与高时长视频输入,突破传统模型仅支持短片段(<30秒)的限制,支持10分钟级视频的全帧率理解与问答
- 多模态长思维链(Long CoT):引入全局记忆机制与强化学习优化,可对视频中的事件演化、因果逻辑、人物关系等进行跨时间步的深度推理,例如“分析监控视频中异常行为的起因与后果”
- 全球领先的评测表现:在 Compass 2025 年 5 月多模态大模型榜单中以 80.4 总分 超越 Gemini 2.5 Pro、GPT-4.5 等国际主流模型,位列全球多模态能力第一;在中文通用语言能力上并列国内榜首
- 面向真实世界交互入口:聚焦“百姓之日用”场景,如教育视频解析、医疗影像报告生成、工业质检视频诊断、短视频内容理解等,推动多模态 AI 落地千行百业
───────────────────────────────────────────────────────────────────
核心能力
👁️🗨️ 视频级语义理解:精准捕捉视频中动作时序、物体交互、场景切换等动态信息,支持“根据教学视频总结知识点”“从手术录像识别关键操作步骤”等任务
🧠 跨模态因果推理:结合图像/视频内容与文本指令,完成“为何该化学实验产生沉淀?”“根据交通监控判断事故责任方”等需常识与逻辑融合的推断
📊 专业领域多模态生成:可基于医学影像生成结构化报告,或根据工程图纸与视频说明自动生成施工校验清单
🎥 长视频摘要与问答:对 5–10 分钟的教学、会议、监控视频进行内容压缩、关键事件提取与自由问答,无需预切片
Playground
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽