基准实验室
-
Claude Sonnet 4.5 对阵 GLM-4.6:中外大模型编程巅峰对决,胜负已分? 丨302.AI 基准实验室
今年十一国庆可谓是大模型界尤为热闹的一个行业节点。就在假期前夕的 9 月 30 日,Anthropic 与智谱先后发布 Claude Sonnet 4.5 与 GLM-4.6。而二者的升级方向都十分默契地指向同一关键战场——编程能力。 前有 Anthropic 高调宣称 Claude Sonnet 4.5 是迄今为止最强大的编程模型,后有 GLM-4.6 在…
-
体验升级而非颠覆,API成本直降75%:DeepSeek-V3.2-Exp评测丨302.AI基准实验室
赶在各大 AI 模型“神仙打架”的国庆热潮之前,深度求索延续了节前卡点更新的惯例,于 9 月 29 日正式上线了最新的实验性模型——DeepSeek-V3.2-Exp.该版本是针对企业场景优化的实验性模型,参数规模约为 7B-16B,延续了“小参数,高性能”的技术路线,重点解决了前代版本在专业领域精度不足与长文本推理效率较低的问题。 从官方发布的基准测试结果…
-
国产AI视频“2.5时代”首战:Wan2.5的“电影感”与Kling 2.5的“稳定美学”,能否击败Veo 3?丨302.AI 基准实验室
时值九月尾声,国产 AI 视频模型领域再度活跃,似乎正蓄势待发,欲在国庆之际交出一份令人瞩目的阶段性答卷。9 月 23 日至 24 日,可灵与阿里相继发布了其最新升级的视频生成模型——Kling 2.5 Turbo 与 Wan2.5-Preview。两款模型不约而同地将版本号锁定在“2.5”,似乎也预示着 AI 视频生成技术已正式迈入“2.5 时代”。 先来…
-
AI人像专题测试:腾讯混元微调的Flux-1-SRPO有何独门绝技?丨302.AI 基准实验室
近日,腾讯混元团队开源了其最新图像模型 Flux-1-SRPO,这款模型是基于黑森林 Flux-DEV 微调的文生图模型,其全称为 Semantic Relative Preference Optimization(语义相对偏好优化),旨在解决当前 AI 生图模型在人像生成方面的油腻皮肤质感和“AI味”常态。 针对人像生成优化,混元团队提出的创新型 Dire…
-
视频版“一键换装”来了!动作生成模型Wan2.2-Animate测评丨302.AI 基准实验室
仅靠一张图片就能制作电影?通义万相于 9 月 19 日开源了其角色动画驱动模型 Wan2.2-Animate —— 一款能够实现一键迁移角色动态的强大模型。其核心能力就是把人物角色的动作、神态,精准迁移到任意角色身上,从而实现让一张静态图复刻任何视频里的动作,主演任何视频里的场景。 AI 视频生成技术普及以来,如何让作品中的角色动态叙事更完整、更真实,这一直…
-
原生音画 vs. 后期配音:AI视频“声”存之战,Veo 3 对比 Kling音频模型评测丨302.AI 基准实验室
AI 视频生成技术今年在以前所未有的速度进行迭代,当你惊叹于互联网上天马行空的视觉作品并尝试自己付诸实践时,却尴尬地发现,绝大数多数视频模型在画质与动效上表现力惊人,而其生成的世界却陷入了一种诡异的沉寂——大部分主流模型都无法实现音视频一体生成。这就意味着我们虽手握造梦的权力,却被迫成为了“无声电影时代”的遗民。不禁想到一句经典广告语,“没声音,再好的戏也出…
-
追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”丨302.AI 基准实验室
美团于 8 月底正式开源了其首个 560B 参数的 MoE 大模型 LongCat-Flash-Chat,并同步上线了官网。官方资料称,作为一款非思考型基础模型,LongCat-Flash-Chat 仅激活少量参数,性能就可比肩当前主流领先模型,尤其在智能体任务中表现优异。其面向推理效率的创新设计带来了极快的推理速度,更擅长处理长耗时的复杂智能体应用。 Lo…
-
2025年AI音乐模型评测:孤独的Suno与国产模型的追赶者们丨302.AI 基准实验室
在开始这篇万字长文前,可以先看两则我刚剪的短视频,配乐均来自本篇评测中生成的 AI 音乐案例,能对目前的 AI 音乐质量有个直接的认知。相信我若不说明,能一耳朵辨别出这是 AI 音乐的人,恐怕寥寥无几。 放眼今天的 AIGC 版图,图像/视频领域早已卷得飞起,这周刚被万千用户追捧的 SOTA 模型很可能下周就被新的竞品完爆,潮起又潮落。然而当我们把视线挪到 …
-
AI生图新王登基?即梦Seedream 4.0对决Nano Banana六轮实测全揭晓丨302.AI 基准实验室
在 Google 的图片编辑模型 Nano Banana 热度尚未消退之际,字节跳动 Seed 团队于昨日发布了其全新升级的生图模型 Seedream 4.0。该模型首次支持 4K 多模态生图,灵活支持文本、图像的组合输入,实现多图融合创作、参考生图、组合生图、图像编辑等核心功能。且其推理性能较 3.0 版本提升了近 10 倍,“画”之前会先“想”,能够深度…
-
11 种语言直译+版式精准还原:阿里 Qwen-MT-Image 图片翻译能力实测丨302.AI 基准实验室
在跨语言信息处理需求日益增长的今天,大量图片中的外语文本、复杂排版与专业术语壁垒,始终是许多用户面临的现实难题。传统的解决方式往往需要分步操作:先提取图片中的文本,单独进行翻译,再进行图像编辑处理。而如今,越来越多支持端到端图片翻译的 AI 模型正不断涌现,致力于探寻“即视即译”的技术边界——这不仅要求模型具备出色的多模态感知能力,以准确识别图像中的文字与结…