API介绍
来自 MiniMax 的最新语音生成模型 Speech-2.6-HD,在音质与韵律表现上实现全面提升。它具备更高保真度的声音还原、更自然的语调和情感表现,同时生成速度更快,带来极致清晰、流畅且富有表现力的语音体验。
官方文档:同步语音合成指南 - MiniMax API Docs
相关评测:《终结“人机感”,MiniMax Speech 2.6 实测:低延迟+全音色复刻颠覆体验》
API调试台
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (4)
| API描述 | 接口地址 | 请求方法 | 稳定性 | 参数说明 |
|---|---|---|---|---|
T2A(语音生成-同步) | POST | 稳定 | 查看详情 | |
文档详情 来自Minimax的语音生成模型 请求参数 Header参数Authorizationstring可选 示例值: Bearer {{YOUR_API_KEY}}Content-Typestring可选 示例值: application/jsonBody参数 application/jsonmodelenum<string>必需 请求的模型版本,可选范围:speech-2.8-turbo,speech-2.8-hd,speech-2.6-hd, speech-2.6-turbo, speech-02-hd, speech-02-turbo, speech-01-hd, speech-01-turbo 枚举值: speech-2.6-hdspeech-2.6-turbospeech-02-hdspeech-02-turbospeech-01-hdspeech-01-turbospeech-2.8-turbospeech-2.8-hdtextstring必需 需要合成语音的文本,长度限制小于 10000 字符,若文本长度大于 3000 字符,推荐使用流式输出 streamboolean可选 控制是否流式输出。默认 false,即不开启流式 stream_optionsobject可选 exclude_aggregated_audioboolean可选 设置最后一个 chunk 是否包含拼接后的语音 hex 数据。默认值为 False voice_settingobject可选 voice_idstring可选 合成音频的音色编号,支持系统音色、复刻音色以及文生音色 speednumber可选 合成音频的语速,取值范围 [0.5,2],默认值为1.0 volnumber可选 合成音频的音量,取值范围 (0,10],默认值为1.0 pitchinteger可选 合成音频的语调,取值范围 [-12,12],默认值为0 emotionenum<string>可选 控制合成语音的情绪,模型会根据输入文本自动匹配情绪 枚举值: happysadangryfearfuldisgustedsurprisedcalmfluenttext_normalizationboolean可选 是否启用中文、英语文本规范化,开启后可提升数字阅读场景的性能 latex_readboolean可选 控制是否朗读 latex 公式,默认为 false audio_settingobject可选 sample_rateenum<integer>可选 生成音频的采样率,默认为 32000 枚举值: 80001600022050240003200044100bitrateenum<integer>可选 生成音频的比特率,默认值为 128000,仅对 mp3 格式有效 枚举值: 3200064000128000256000formatenum<string>可选 生成音频的格式,默认为 mp3 枚举值: mp3pcmflacwavchannelenum<integer>可选 生成音频的声道数,1 为单声道,2 为双声道 枚举值: 12force_cbrboolean可选 是否使用恒定比特率编码,仅对流式输出且格式为 mp3 时生效 pronunciation_dictobject可选 tonearray[string]可选 替换需要特殊标注的文字或符号对应的注音或发音替换规则 timber_weightsarray[object]可选 voice_idstring可选 合成音频的音色编号 weightinteger可选 音色的权重,取值范围 [1, 100] language_boostenum<string>可选 是否增强对指定的小语种和方言的识别能力,默认值为 null 枚举值: ChineseChinese,YueEnglishArabicRussianSpanishFrenchPortugueseGermanTurkishDutchUkrainianVietnameseIndonesianJapaneseItalianKoreanThaiPolishRomanianGreekCzechFinnishHindiBulgarianDanishHebrewMalayPersianSlovakSwedishCroatianFilipinoHungarianNorwegianSlovenianCatalanNynorskTamilAfrikaansautovoice_modifyobject可选 pitchenum<integer>可选 音高调整(低沉/明亮),范围 [-100,100] 枚举值: -100100intensityenum<integer>可选 强度调整(力量感/柔和),范围 [-100,100] 枚举值: -100100timbreenum<integer>可选 音色调整(磁性/清脆),范围 [-100,100] 枚举值: -100100sound_effectsenum<string>可选 音效设置 枚举值: spacious_echoauditorium_echolofi_telephoneroboticsubtitle_enableboolean可选 控制是否开启字幕服务,仅在非流式输出时有效 output_formatenum<string>可选 控制输出结果的形式,流式场景仅支持返回 hex 形式 枚举值: urlhexaigc_watermarkboolean可选 控制是否在合成音频的末尾添加音频节奏标识,默认值为 False | ||||
T2A(语音生成-异步) | POST | 稳定 | 查看详情 | |
暂无数据 | ||||
T2A(语音生成-状态查询) | GET | 稳定 | 查看详情 | |
暂无数据 | ||||
Files(音频文件下载) | GET | 稳定 | 查看详情 | |
文档详情 接口说明 价格:0 PTC / 次 请求参数 Header参数Authorizationstring可选 示例值: Bearer {{YOUR_API_KEY}}Query参数file_idstring可选 | ||||
API价格表
| 模型 | 说明 | 302.AI价格 |
|---|
speech-2.6-hd | T2A(语音生成-同步) |
|
speech-2.6-hd | 异步超长文本语音生成 |
|
T2A | 语音生成-状态查询 |
|
Files(音频文件下载) | - |
|
