
GLM-TTS
结合大语言模型和扩散模型技术的GLM语音合成模型
2025-12-15
价格:
大额采购联系客户经理享专属优惠
稳定性
不稳定
API介绍
GLM-TTS 是 智谱AI 推出的 旗舰级 语音合成模型,核心定位为面向开发者和企业用户的超拟人文本转语音(TTS)API,提供低延迟、高自然度、情感丰富的语音输出体验,适配智能客服、有声阅读、交互助手等多场景。
- 架构创新:采用 text2token + token2wav 两阶段生成流程,并结合强化学习优化,使语音更自然、连贯、富有情感。
- 情感与语调智能预测:根据上下文自动调节情绪和语调,显著提升语音表现力,让合成语音具有更真实的“生命力”。
- 灵活响应方式:支持 非流式 (完整文本一次性合成)与 流式 (实时输出首帧 < 400ms)接口,满足从批量合成到互动场景的多样需求。
- 动态参数调节:可根据业务需要灵活设置语速、音量等合成参数,实现丰富发音风格与节奏控制。
- 多场景适用:覆盖智能客服、有声内容、教育教学、智能助手、职场办公等场景,让语音合成从“清晰表达”跨入“情感共鸣”。
───────────────────────────────────────────────────────────────────
核心能力
⚡ 超拟人情感合成:内置上下文情绪智能分析,不只是读出文字,还模拟真实语调起伏和语感节奏,让合成语音听起来更“像人”。
🚀 流式实时交互体验:支持实时音频流输出,适合智能助手、对话机器人等对延迟敏感的互动场景。
🔧 高度可控参数:提供语速、音量等控制能力,可根据品牌风格或场景需求定制特定发音效果。
🎧 丰富音色选择:内置多种音色如“彤彤”“小陈”“锤锤”等,适用于不同性格和内容风格的语音合成需求。
🧩 多场景接入:兼容非流式和流式合成,支持快速接入智能客服、讲故事、导览等业务线。
───────────────────────────────────────────────────────────────────
效果展示
文本:哎呀,可别这么说自己呀!你是不是最近遇到啥事儿了,感觉没做好才这么想的?其实啊,谁还没个手忙脚乱、犯迷糊的时候呢。
音频结果:file.302ai.cn/gpt/imgs/20251215/91cb439c4d21a8378a30004a753bcf19.wav
API调试台
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (1)
API价格表
$¥ 円 ₽