API介绍
MiniMax Speech 2.8 HD 是 MiniMax 推出的文本转语音级旗舰产品,核心定位为“提供录音棚级高保真音质的专业语音合成 API”,以极致清晰度与自然度满足高端音频制作需求。
- 升级点:支持 17+ 预设人声及自定义克隆音色,原生解析 (laughs)、(sighs) 等拟声词,并提供情感控制与发音定制能力。
- 适用场景:有声书制作、影视配音、播客广播、教育课件、无障碍服务及游戏角色语音等专业音频场景。
- 产品价值:精细调控速度、音高、音量、采样率、比特率及声道,输出即用型广播级音频。
- 音质优势:HD 处理带来更丰富、更干净的音频细节,自然度显著优于 Turbo 版本。
- 技术特色:支持英文数字标准化(english_normalization)与发音词典(pronunciation_dict),确保品牌名与术语准确发音。
───────────────────────────────────────────────────────────────────
核心能力
🎙️ 录音棚级音质
HD 渲染提供更高清晰度与自然度,适合最终成品交付。
💬 拟声表达支持
原生识别 (laughs)、(coughs)、(gasps)、(sighs) 等 22 种拟声词,增强语音生动性。
😊 情感语调控制
可指定 happy、calm 等情绪模式,匹配内容情感基调。
🎛️ 全参数精细调节
自由设置 speed、pitch、volume 及 audio format、sample_rate、bitrate、channel。
🔤 精准发音管理
通过 pronunciation_dict 定义专有名词读音,启用 english_normalization 优化英文数字/日期朗读。
API调试台
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (4)
| API描述 | 接口地址 | 请求方法 | 稳定性 | 参数说明 |
|---|---|---|---|---|
T2A(语音生成-同步) | POST | 稳定 | 查看详情 | |
文档详情 来自Minimax的语音生成模型 请求参数 Header参数Authorizationstring可选 示例值: Bearer {{YOUR_API_KEY}}Content-Typestring可选 示例值: application/jsonBody参数 application/jsonmodelenum<string>必需 请求的模型版本,可选范围:speech-2.8-turbo,speech-2.8-hd,speech-2.6-hd, speech-2.6-turbo, speech-02-hd, speech-02-turbo, speech-01-hd, speech-01-turbo 枚举值: speech-2.6-hdspeech-2.6-turbospeech-02-hdspeech-02-turbospeech-01-hdspeech-01-turbospeech-2.8-turbospeech-2.8-hdtextstring必需 需要合成语音的文本,长度限制小于 10000 字符,若文本长度大于 3000 字符,推荐使用流式输出 streamboolean可选 控制是否流式输出。默认 false,即不开启流式 stream_optionsobject可选 exclude_aggregated_audioboolean可选 设置最后一个 chunk 是否包含拼接后的语音 hex 数据。默认值为 False voice_settingobject可选 voice_idstring可选 合成音频的音色编号,支持系统音色、复刻音色以及文生音色 speednumber可选 合成音频的语速,取值范围 [0.5,2],默认值为1.0 volnumber可选 合成音频的音量,取值范围 (0,10],默认值为1.0 pitchinteger可选 合成音频的语调,取值范围 [-12,12],默认值为0 emotionenum<string>可选 控制合成语音的情绪,模型会根据输入文本自动匹配情绪 枚举值: happysadangryfearfuldisgustedsurprisedcalmfluenttext_normalizationboolean可选 是否启用中文、英语文本规范化,开启后可提升数字阅读场景的性能 latex_readboolean可选 控制是否朗读 latex 公式,默认为 false audio_settingobject可选 sample_rateenum<integer>可选 生成音频的采样率,默认为 32000 枚举值: 80001600022050240003200044100bitrateenum<integer>可选 生成音频的比特率,默认值为 128000,仅对 mp3 格式有效 枚举值: 3200064000128000256000formatenum<string>可选 生成音频的格式,默认为 mp3 枚举值: mp3pcmflacwavchannelenum<integer>可选 生成音频的声道数,1 为单声道,2 为双声道 枚举值: 12force_cbrboolean可选 是否使用恒定比特率编码,仅对流式输出且格式为 mp3 时生效 pronunciation_dictobject可选 tonearray[string]可选 替换需要特殊标注的文字或符号对应的注音或发音替换规则 timber_weightsarray[object]可选 voice_idstring可选 合成音频的音色编号 weightinteger可选 音色的权重,取值范围 [1, 100] language_boostenum<string>可选 是否增强对指定的小语种和方言的识别能力,默认值为 null 枚举值: ChineseChinese,YueEnglishArabicRussianSpanishFrenchPortugueseGermanTurkishDutchUkrainianVietnameseIndonesianJapaneseItalianKoreanThaiPolishRomanianGreekCzechFinnishHindiBulgarianDanishHebrewMalayPersianSlovakSwedishCroatianFilipinoHungarianNorwegianSlovenianCatalanNynorskTamilAfrikaansautovoice_modifyobject可选 pitchenum<integer>可选 音高调整(低沉/明亮),范围 [-100,100] 枚举值: -100100intensityenum<integer>可选 强度调整(力量感/柔和),范围 [-100,100] 枚举值: -100100timbreenum<integer>可选 音色调整(磁性/清脆),范围 [-100,100] 枚举值: -100100sound_effectsenum<string>可选 音效设置 枚举值: spacious_echoauditorium_echolofi_telephoneroboticsubtitle_enableboolean可选 控制是否开启字幕服务,仅在非流式输出时有效 output_formatenum<string>可选 控制输出结果的形式,流式场景仅支持返回 hex 形式 枚举值: urlhexaigc_watermarkboolean可选 控制是否在合成音频的末尾添加音频节奏标识,默认值为 False | ||||
T2A(语音生成-异步) | POST | 稳定 | 查看详情 | |
文档详情 来自Minimax的语音生成模型 请求参数 Header参数Authorizationstring可选 示例值: Bearer {{YOUR_API_KEY}}Content-Typestring可选 示例值: application/jsonBody参数 application/jsonmodelenum<string>必需 请求的模型版本,可选范围:speech-2.8-turbo,speech-2.8-hd,speech-2.6-hd, speech-2.6-turbo, speech-02-hd, speech-02-turbo, speech-01-hd, speech-01-turbo 枚举值: speech-2.6-hdspeech-2.6-turbospeech-02-hdspeech-02-turbospeech-01-hdspeech-01-turbospeech-2.8-turbospeech-2.8-hdtextstring必需 需要合成语音的文本,长度限制小于 50000 字符,适用于长文本合成 voice_settingobject可选 voice_idstring可选 合成音频的音色编号,支持系统音色、复刻音色以及文生音色 speednumber可选 合成音频的语速,取值范围 [0.5,2],默认值为1.0 volnumber可选 合成音频的音量,取值范围 (0,10],默认值为1.0 pitchinteger可选 合成音频的语调,取值范围 [-12,12],默认值为0 emotionenum<string>可选 控制合成语音的情绪,模型会根据输入文本自动匹配情绪 枚举值: happysadangryfearfuldisgustedsurprisedcalmfluenttext_normalizationboolean可选 是否启用中文、英语文本规范化,开启后可提升数字阅读场景的性能 latex_readboolean可选 控制是否朗读 latex 公式,默认为 false audio_settingobject可选 sample_rateenum<integer>可选 生成音频的采样率,默认为 32000 枚举值: 80001600022050240003200044100bitrateenum<integer>可选 生成音频的比特率,默认值为 128000,仅对 mp3 格式有效 枚举值: 3200064000128000256000formatenum<string>可选 生成音频的格式,默认为 mp3 枚举值: mp3pcmflacwavchannelenum<integer>可选 生成音频的声道数,1 为单声道,2 为双声道 枚举值: 12force_cbrboolean可选 是否使用恒定比特率编码,仅对流式输出且格式为 mp3 时生效 pronunciation_dictobject可选 tonearray[string]可选 替换需要特殊标注的文字或符号对应的注音或发音替换规则 timber_weightsarray[object]可选 voice_idstring可选 合成音频的音色编号 weightinteger可选 音色的权重,取值范围 [1, 100] language_boostenum<string>可选 是否增强对指定的小语种和方言的识别能力,默认值为 null 枚举值: ChineseChinese,YueEnglishArabicRussianSpanishFrenchPortugueseGermanTurkishDutchUkrainianVietnameseIndonesianJapaneseItalianKoreanThaiPolishRomanianGreekCzechFinnishHindiBulgarianDanishHebrewMalayPersianSlovakSwedishCroatianFilipinoHungarianNorwegianSlovenianCatalanNynorskTamilAfrikaansautovoice_modifyobject可选 pitchenum<integer>可选 音高调整(低沉/明亮),范围 [-100,100] 枚举值: -100100intensityenum<integer>可选 强度调整(力量感/柔和),范围 [-100,100] 枚举值: -100100timbreenum<integer>可选 音色调整(磁性/清脆),范围 [-100,100] 枚举值: -100100sound_effectsenum<string>可选 音效设置 枚举值: spacious_echoauditorium_echolofi_telephoneroboticoutput_formatenum<string>可选 控制输出结果的形式,流式场景仅支持返回 hex 形式 枚举值: urlhex | ||||
T2A(语音生成-状态查询) | GET | 稳定 | 查看详情 | |
文档详情 接口说明 价格:0 PTC / 次 请求参数 Header参数Authorizationstring可选 示例值: Bearer {{YOUR_API_KEY}}Content-Typestring可选 示例值: application/jsonQuery参数task_idstring可选 | ||||
Files(音频文件下载) | GET | 稳定 | 查看详情 | |
文档详情 接口说明 价格:0 PTC / 次 请求参数 Header参数Authorizationstring可选 示例值: Bearer {{YOUR_API_KEY}}Query参数file_idstring可选 | ||||
API价格表
| 模型 | 说明 | 302.AI价格 |
|---|
speech-2.8-hd | T2A(语音生成-同步) |
|
speech-2.8-hd | 异步超长文本语音生成 |
|
T2A | 语音生成-状态查询 |
|
Files(音频文件下载) | - |
|
