企业级AI资源平台 - 302.AI | 按用量付费，全模型API接入，应用在线使用

GLM-TTS

结合大语言模型和扩散模型技术的GLM语音合成模型

2025-12-15

音视频处理

价格:

$0.03/1000 字符

大额采购联系客户经理享专属优惠

API介绍

GLM-TTS 是智谱AI 推出的旗舰级语音合成模型，核心定位为面向开发者和企业用户的超拟人文本转语音（TTS）API，提供低延迟、高自然度、情感丰富的语音输出体验，适配智能客服、有声阅读、交互助手等多场景。

架构创新：采用 text2token + token2wav 两阶段生成流程，并结合强化学习优化，使语音更自然、连贯、富有情感。
情感与语调智能预测：根据上下文自动调节情绪和语调，显著提升语音表现力，让合成语音具有更真实的“生命力”。
灵活响应方式：支持非流式（完整文本一次性合成）与流式（实时输出首帧 < 400ms）接口，满足从批量合成到互动场景的多样需求。
动态参数调节：可根据业务需要灵活设置语速、音量等合成参数，实现丰富发音风格与节奏控制。
多场景适用：覆盖智能客服、有声内容、教育教学、智能助手、职场办公等场景，让语音合成从“清晰表达”跨入“情感共鸣”。

───────────────────────────────────────────────────────────────────

核心能力

⚡ 超拟人情感合成：内置上下文情绪智能分析，不只是读出文字，还模拟真实语调起伏和语感节奏，让合成语音听起来更“像人”。

🚀 流式实时交互体验：支持实时音频流输出，适合智能助手、对话机器人等对延迟敏感的互动场景。

🔧 高度可控参数：提供语速、音量等控制能力，可根据品牌风格或场景需求定制特定发音效果。

🎧 丰富音色选择：内置多种音色如“彤彤”“小陈”“锤锤”等，适用于不同性格和内容风格的语音合成需求。

🧩 多场景接入：兼容非流式和流式合成，支持快速接入智能客服、讲故事、导览等业务线。

效果展示

文本：哎呀，可别这么说自己呀！你是不是最近遇到啥事儿了，感觉没做好才这么想的？其实啊，谁还没个手忙脚乱、犯迷糊的时候呢。

音频结果：file.302ai.cn/gpt/imgs/20251215/91cb439c4d21a8378a30004a753bcf19.wav

API调试台

登录后，探索更多精彩功能！点击登录

API统计

API列表 (1)

API描述	接口地址	请求方法	稳定性	参数说明
glm-tts	https://api.302.ai/bigmodel/api/paas/v4/audio/speech	POST	不稳定	查看详情
文档详情 GLM-TTS 语音合成模型以新一代智谱语音大模型为核心，突破传统语音合成框架，通过上下文智能预判文本情绪与语调，显著提升语音自然度与表现力，让合成语音具备真实情感与生命力。GLM‑TTS 在架构上采用两阶段生成，并在训练中引入基于 GRPO 的强化学习方案，在公开评测的「字错误率」和「情感表达」上取得开源 SOTA 表现。价格：0.03 PTC/1000 字符请求参数 Header参数 Authorizationstring 可选示例值:`Bearer {{YOUR_API_KEY}}` Content-Typestring 可选示例值:`application/json` Query参数 output_formatstring 可选示例值:`url` Body参数 application/json modelstring 必需 Available options: glm-tts inputstring 必需要转换为语音的文本 Maximum string length: 1024 voiceenum<string> 必需生成音频时使用的音色，支持系统音色以及复刻音色两种类型，其中系统音色如下： tongtong: 彤彤，默认音色 chuichui: 锤锤 xiaochen: 小陈 jam: 动动动物圈jam音色 kazi: 动动动物圈kazi音色 douji: 动动动物圈douji音色 luodo: 动动动物圈luodo音色 Available options: tongtong, chuichui, xiaochen, jam, kazi, douji, luodo 枚举值: `tongtongchuichuijamkazidoujiluodo` response_formatenum<string> 可选音频输出格式，默认返回pcm格式的文件。流式生成音频时，仅支持返回pcm格式的文件 Available options: wav, pcm 枚举值: `wavpcm` encode_formatenum<string> 可选仅流式返回时，决定返回的编码格式。默认返回对应音频文件格式的base64字符串。 Available options: base64, hex 枚举值: `base64hex` speedinteger 可选语速，默认1.0，取值范围[0.5, 2] volumeinteger 可选音量，默认1.0，取值范围(0, 10] watermark_enabledboolean 可选控制AI生成音频时是否添加水印。 true: 默认启用AI生成的显式水印及隐式数字水印，符合政策要求。 false: 关闭所有水印 Example: true

API价格表

$￥円 ₽

模型	说明	302.AI价格

GLM-TTS

API介绍

核心能力

效果展示

API调试台

API统计

API列表 (1)

Header参数

Query参数

Body参数 application/json

API价格表

glm-tts

$0.03/1000 字符

猜你喜欢

快捷访问

帮助与支持

法律声明