LLM
-
终结“人机感”,MiniMax Speech 2.6 实测:低延迟+全音色复刻颠覆体验丨302.AI 基准实验室
从机械单调的合成音,到略带情感的 AI 助手,AI 语音的竞赛始终聚焦于说得更“快”与更“像”的极限。然而,旧有的标杆正在被颠覆:MiniMax 于 10 月 30 日掷出其最新语音模型Speech 2.6,将端到端延迟一举压缩至 250 毫秒以下,重新定义了实时语音交互的速率标准。在人类日常对话中,自然停顿介于 300-500 毫秒之间,而 250 毫秒更…
-
卷不动全能冠军?MiniMax-M2:用一半的力气,拿下最值钱的阵地丨302.AI 基准实验室
MiniMax 日前正式开源了其专为编程任务与 Agent 工作流优化设计的大模型 MiniMax-M2。该模型采用 MoE 混合专家架构,官方称其为“小模型”,是因为仅凭 100 亿激活参数,即可实现媲美顶尖模型的端到端工具调用能力,而其轻量级形态使得部署和扩展变得比以往更加轻松。 MiniMax M2 定位明确,旨在成为 AI 编程与 Agent 开发领…
-
Doubao-Seed-Translation翻译模型实测:距离真正的“翻译大师”还有多远?丨302.AI 基准实验室
字节跳动旗下火山引擎于 9 月推出其通用多语言翻译模型 Doubao-Seed-Translation,支持包括中、英、日、韩、德、法等 28 种语言互译,基本覆盖了全球大部分主流语种。官方称模型在中英翻译效果上逼近 Deepseek-R1,而在多语言综合表现上,甚至可以对标顶尖模型 GPT-4o 与 Gemini-2.5-Pro,展现出国际一流的翻译水准。…
-
Sonnet 4 平替?Claude Haiku 4.5 实测杀疯了:性能不输,价格砍半丨302.AI 基准实验室
距 Claude Sonnet 4 问鼎业界编程翘楚五个月后,Anthropic 再度官宣发布其 Claude 家族轻量级新作——Claude Haiku 4.5,并宣称该模型在编码性能上已媲美 Sonnet 4,而价格仅为后者的三分之一,速度更是提升一倍以上,堪称一款极具竞争力的 Sonnet 4 平替。 Anthropic 官方抛出的数据也直观地力证了 …
-
Claude Sonnet 4.5 对阵 GLM-4.6:中外大模型编程巅峰对决,胜负已分? 丨302.AI 基准实验室
今年十一国庆可谓是大模型界尤为热闹的一个行业节点。就在假期前夕的 9 月 30 日,Anthropic 与智谱先后发布 Claude Sonnet 4.5 与 GLM-4.6。而二者的升级方向都十分默契地指向同一关键战场——编程能力。 前有 Anthropic 高调宣称 Claude Sonnet 4.5 是迄今为止最强大的编程模型,后有 GLM-4.6 在…
-
体验升级而非颠覆,API成本直降75%:DeepSeek-V3.2-Exp评测丨302.AI基准实验室
赶在各大 AI 模型“神仙打架”的国庆热潮之前,深度求索延续了节前卡点更新的惯例,于 9 月 29 日正式上线了最新的实验性模型——DeepSeek-V3.2-Exp.该版本是针对企业场景优化的实验性模型,参数规模约为 7B-16B,延续了“小参数,高性能”的技术路线,重点解决了前代版本在专业领域精度不足与长文本推理效率较低的问题。 从官方发布的基准测试结果…
-
302.AI 赛博月刊丨Vol.9 GPT-5,输给了香蕉
AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年8月 AI行业的大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成员吸收等多种…
-
追平 DeepSeek-V3?美团 LongCat-Flash-Chat 实测:快,但不够“聪明”丨302.AI 基准实验室
美团于 8 月底正式开源了其首个 560B 参数的 MoE 大模型 LongCat-Flash-Chat,并同步上线了官网。官方资料称,作为一款非思考型基础模型,LongCat-Flash-Chat 仅激活少量参数,性能就可比肩当前主流领先模型,尤其在智能体任务中表现优异。其面向推理效率的创新设计带来了极快的推理速度,更擅长处理长耗时的复杂智能体应用。 Lo…
-
Claude断供中国之际,Kimi-K2-0905低调上线:时势造英雄丨302.AI 基准实验室
继 7 月开源万亿参数模型 Kimi K2 后,月之暗面(Moonshot)于今日又正式抛出了其最新版本 Kimi-K2-0905.根据官方昨晚在 Discord 社群提供的信息来看,作为 K2 的最新版本,该模型在编程能力上进行了重大升级,并将上下文长度扩展至 256K,远超之前版本的 128K 支持能力。 本次更新的 0905 版本具有以下几个亮点: 在…
-
编程能力超越Claude Opus 4?DeepSeek V3.1最新版本实测丨302.AI 基准实验室
DeepSeek 昨晚在 Hugging Face 发布了其最新升级模型 DeepSeek-V3.1-Base。这次更新并没有任何预热宣传,甚至没有放上模型卡。唯一已知的信息是:上下文窗口从原有的64k扩展至128k,从网页、App、小程序都可体验这一模型。从上传的模型版本看,模型尺寸达 685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型…