企业级AI资源平台 - 302.AI | 按用量付费，全模型API接入，应用在线使用

GLM-ASR-2512

智谱新一代语音识别模型，支持将语音实时转换为高质量文字

2025-12-15

音视频处理

价格:

$0.025 /1M tokens

大额采购联系客户经理享专属优惠

API介绍

GLM-ASR-2512 是智谱新一代语音识别模型，核心定位为支持语音实时转换为高质量文字，适配多场景、多口音环境，专注于提供精准、高效的语音转文字服务，显著提升输入与记录效率。

精准识别：在最新竞品评估中，字符错误率（CER）低至 0.0717，达到国际领先水准，可对标全球顶尖语音识别模型。
高效自定义词典：支持快速导入专属词汇、项目代号及生僻人名地名，一次配置即可长期生效，显著降低人工修正成本。
复杂场景优势：在中英混合、行业术语、长句、口语化与指令化表达等复杂场景下，持续稳定输出高质量文本，整体表现优于同类模型。
多语言与方言处理：支持普通话及粤语、四川话、闽南语、吴语等主要方言，同时覆盖多种英语口音及法语、德语、日语、韩语、西班牙语、阿拉伯语等数十种主流语言。
上传限制明确：支持音频输入、文本输出，单文件大小 ≤ 25 MB，音频时长 ≤ 30 秒。

───────────────────────────────────────────────────────────────────

核心能力

🎯 多场景精准适配

可高效支持实时会议纪要、客服质检与工单处理、视频直播字幕、办公文档输入、多语言沟通与翻译、医疗病历录入等核心应用场景。

实时会议纪要：实时转录会议内容，输出结构化纪要，提升会议记录效率。
客服质检与工单处理：高精度转写通话内容，支持质检分析与流程优化。
视频直播字幕：为直播与会议提供低延迟、高准确率的同步字幕。
办公文档输入：通过语音快速生成文档、邮件与方案草稿。
多语言沟通与翻译：支持跨语言语音理解，适配跨境交流与在线协作。
医疗病历录入：准确识别医学专业术语，辅助医生高效生成电子病历。

📌 特殊场景处理优势

多元素混合场景：精准处理中英文混合、数字与单位、口语不连贯表达，输出语义完整、逻辑清晰的文本。
方言与噪声场景：具备方言自动判别与抗噪能力，在复杂环境中保持高识别准确率。
带口音外语场景：可稳定识别带口音英语，在噪声环境下依然输出可靠结果。
特定领域黑话场景：支持行业与游戏黑话识别，实现中英文无缝切换与流式转写。

效果展示

数据+术语+中英文：file.302.ai/gpt/resource302db/20251215/b8065326a87a42a9a62bae0d9e5c19e9.wav

结果输出：Excel二零一九使用升序降序做排序操作，活动单元格应该选定a工作表的任何地方，b数据清单的任何地方，c排序依据数据列的任意单元格，d数据清单标题行的任意单元格，应该选哪个

API调试台

登录后，探索更多精彩功能！点击登录

API统计

API列表 (1)

API描述	接口地址	请求方法	稳定性	参数说明
GLM-ASR-2512	https://api.302.ai/bigmodel/api/paas/v4/audio/transcriptions	POST	稳定	查看详情
文档详情 GLM-ASR-2512 是智谱新一代语音识别模型，支持将语音实时转换为高质量文字。无论是日常聊天、会议记录、工作文档，还是包含专业术语的场景，都能精准识别与转换，大幅提升输入与记录效率。模型在多场景、多口音条件下依旧保持行业领先的识别表现，字符错误率（CER）仅为 0.0717，带来既快速又可靠的语音输入体验。价格：0.025 PTC/M token 请求参数 Header参数 Authorizationstring 可选示例值:`Bearer {{YOUR_API_KEY}}` Content-Typestring 可选示例值:`application/json` Body参数 application/json filestring 必需需要转录的音频文件，支持上传的音频文件格式：.wav / .mp3，规格限制：文件大小 ≤ 25 MB、音频时长 ≤ 30 秒 modelstring 必需要调用的模型编码 Available options: glm-asr-2512 file_base64string 可选音频文件Base64编码。file_base64 和 file 只需要传一个（同时传入以file为准） promptstring 可选在长文本场景中，可以提供之前的转录结果作为上下文。建议小于8000字。 hotwordsarray[string] 可选热词表，用于提升特定领域词汇识别率。格式例如[“人名”,“地名”]，建议不超过100个。 request_idstring 可选由用户端传递，需要唯一；用于区分每次请求的唯一标识符。如果用户端未提供，平台将默认生成。 user_idstring 可选终端用户的唯一ID，帮助平台对终端用户的非法活动、生成非法不当信息或其他滥用行为进行干预。ID长度要求：至少6个字符，最多128个字符。

API价格表

$￥円 ₽

模型	说明	302.AI价格

GLM-ASR-2512

API介绍

核心能力

效果展示

API调试台

API统计

API列表 (1)

Header参数

Body参数 application/json

API价格表

GLM-ASR-2512

$0.025 / 1M tokens

猜你喜欢

快捷访问

帮助与支持

法律声明