GLM-TTS

GLM-TTS

结合大语言模型和扩散模型技术的GLM语音合成模型
2025-12-15
音视频处理
价格:
$0.03/1000 字符
大额采购联系客户经理享专属优惠
稳定性
不稳定

API介绍

GLM-TTS 是 智谱AI 推出的 旗舰级 语音合成模型,核心定位为面向开发者和企业用户的超拟人文本转语音(TTS)API,提供低延迟、高自然度、情感丰富的语音输出体验,适配智能客服、有声阅读、交互助手等多场景。

  • 架构创新:采用 text2token + token2wav 两阶段生成流程,并结合强化学习优化,使语音更自然、连贯、富有情感。
  • 情感与语调智能预测:根据上下文自动调节情绪和语调,显著提升语音表现力,让合成语音具有更真实的“生命力”。
  • 灵活响应方式:支持 非流式 (完整文本一次性合成)与 流式 (实时输出首帧 < 400ms)接口,满足从批量合成到互动场景的多样需求。
  • 动态参数调节:可根据业务需要灵活设置语速、音量等合成参数,实现丰富发音风格与节奏控制。
  • 多场景适用:覆盖智能客服、有声内容、教育教学、智能助手、职场办公等场景,让语音合成从“清晰表达”跨入“情感共鸣”。

───────────────────────────────────────────────────────────────────

核心能力

超拟人情感合成:内置上下文情绪智能分析,不只是读出文字,还模拟真实语调起伏和语感节奏,让合成语音听起来更“像人”。

🚀 流式实时交互体验:支持实时音频流输出,适合智能助手、对话机器人等对延迟敏感的互动场景。

🔧 高度可控参数:提供语速、音量等控制能力,可根据品牌风格或场景需求定制特定发音效果。

🎧 丰富音色选择:内置多种音色如“彤彤”“小陈”“锤锤”等,适用于不同性格和内容风格的语音合成需求。

🧩 多场景接入:兼容非流式和流式合成,支持快速接入智能客服、讲故事、导览等业务线。

───────────────────────────────────────────────────────────────────

效果展示

文本:哎呀,可别这么说自己呀!你是不是最近遇到啥事儿了,感觉没做好才这么想的?其实啊,谁还没个手忙脚乱、犯迷糊的时候呢。

音频结果:file.302ai.cn/gpt/imgs/20251215/91cb439c4d21a8378a30004a753bcf19.wav

API调试台

登录后,探索更多精彩功能! 点击登录

API统计

API列表 (1)

API描述接口地址请求方法稳定性参数说明
glm-tts
POST
不稳定
查看详情

API价格表

$
模型说明302.AI价格

glm-tts

-

$0.03/1000 字符