
GLM-ASR-2512
智谱新一代语音识别模型,支持将语音实时转换为高质量文字
2025-12-15
价格:
大额采购联系客户经理享专属优惠
稳定性
稳定
API介绍
GLM-ASR-2512 是智谱新一代语音识别模型,核心定位为支持语音实时转换为高质量文字,适配多场景、多口音环境,专注于提供精准、高效的语音转文字服务,显著提升输入与记录效率。
- 精准识别:在最新竞品评估中,字符错误率(CER)低至 0.0717,达到国际领先水准,可对标全球顶尖语音识别模型。
- 高效自定义词典:支持快速导入专属词汇、项目代号及生僻人名地名,一次配置即可长期生效,显著降低人工修正成本。
- 复杂场景优势:在中英混合、行业术语、长句、口语化与指令化表达等复杂场景下,持续稳定输出高质量文本,整体表现优于同类模型。
- 多语言与方言处理:支持普通话及粤语、四川话、闽南语、吴语等主要方言,同时覆盖多种英语口音及法语、德语、日语、韩语、西班牙语、阿拉伯语等数十种主流语言。
- 上传限制明确:支持音频输入、文本输出,单文件大小 ≤ 25 MB,音频时长 ≤ 30 秒。
───────────────────────────────────────────────────────────────────
核心能力
🎯 多场景精准适配
可高效支持实时会议纪要、客服质检与工单处理、视频直播字幕、办公文档输入、多语言沟通与翻译、医疗病历录入等核心应用场景。
- 实时会议纪要:实时转录会议内容,输出结构化纪要,提升会议记录效率。
- 客服质检与工单处理:高精度转写通话内容,支持质检分析与流程优化。
- 视频直播字幕:为直播与会议提供低延迟、高准确率的同步字幕。
- 办公文档输入:通过语音快速生成文档、邮件与方案草稿。
- 多语言沟通与翻译:支持跨语言语音理解,适配跨境交流与在线协作。
- 医疗病历录入:准确识别医学专业术语,辅助医生高效生成电子病历。
📌 特殊场景处理优势
- 多元素混合场景:精准处理中英文混合、数字与单位、口语不连贯表达,输出语义完整、逻辑清晰的文本。
- 方言与噪声场景:具备方言自动判别与抗噪能力,在复杂环境中保持高识别准确率。
- 带口音外语场景:可稳定识别带口音英语,在噪声环境下依然输出可靠结果。
- 特定领域黑话场景:支持行业与游戏黑话识别,实现中英文无缝切换与流式转写。
───────────────────────────────────────────────────────────────────
效果展示
数据+术语+中英文:file.302.ai/gpt/resource302db/20251215/b8065326a87a42a9a62bae0d9e5c19e9.wav
结果输出:Excel二零一九使用升序降序做排序操作,活动单元格应该选定a工作表的任何地方,b数据清单的任何地方,c排序依据数据列的任意单元格,d数据清单标题行的任意单元格,应该选哪个
API调试台
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽