
FunAudioLLM/CosyVoice2-0.5B
来自硅基流动的文本转语音模型CosyVoice2-0.5B
2025-06-12
音视频处理
价格:
$7/1M tokens
大额采购联系客户经理享专属优惠
API介绍
来自硅基流动的文本转语音模型CosyVoice2-0.5B
API调试台
登录后,探索更多精彩功能! 点击登录
API统计
API列表 (3)
| API描述 | 接口地址 | 请求方法 | 稳定性 | 参数说明 |
|---|---|---|---|---|
上传参考音频 | POST | 稳定 | 查看详情 | |
暂无数据 | ||||
删除参考音频 | POST | 稳定 | 查看详情 | |
暂无数据 | ||||
FunAudioLLM/CosyVoice2-0.5B文本转语音 | POST | 稳定 | 查看详情 | |
文档详情 CosyVoice 2 是一个基于大语言模型的流式语音合成模型,采用统一的流式/非流式框架设计。该模型通过有限标量量化(FSQ)来提升语音 token 的编码本利用率,简化了文本到语音的语言模型架构,并开发了支持不同合成场景的分块感知因果流匹配模型。在流式模式下,模型可实现 150ms 的超低延迟,同时保持与非流式模式几乎相同的合成质量。 请求参数 Header参数Authorizationstring可选 示例值: Bearer {{YOUR_API_KEY}}Content-Typestring可选 示例值: application/jsonBody参数 application/jsonmodelenum<string>必需 FunAudioLLM/CosyVoice2-0.5B 枚举值: FunAudioLLM/CosyVoice2-0.5Binputstring必需 对于自然语言指令,请在自然语言描述之前添加特殊的结束标记"<|endofprompt|>“。这些描述涵盖了情感、语速、角色扮演和方言等方面。使用”[笑声]“和”[呼吸]"等标记在文本中插入音效。所需字符串长度:1 - 128000 voiceenum<string>可选 可选的预设音色 枚举值: FunAudioLLM/CosyVoice2-0.5B:alexFunAudioLLM/CosyVoice2-0.5B:annaFunAudioLLM/CosyVoice2-0.5B:bellaFunAudioLLM/CosyVoice2-0.5B:benjaminFunAudioLLM/CosyVoice2-0.5B:charlesFunAudioLLM/CosyVoice2-0.5B:claireFunAudioLLM/CosyVoice2-0.5B:davidFunAudioLLM/CosyVoice2-0.5B:dianareferencesarray[object]可选 语音字段和引用字段是互斥的。用于音色克隆的参考音频 audiostring可选 指向音频文件的URL(例如 https://example.com/audio.mp3) textstring可选 音频内容,可以是指向音频文件的URL或base64编码的音频字符串 response_formatenum<string>可选 音频输出的格式。支持的格式为mp3、opus、wav、pcm 枚举值: mp3opuswavpcmsample_ratenumber可选 控制输出采样率。opus:支持48000 Hz。wav、pcm:支持8000、16000、24000、32000、44100 Hz,默认44100 Hz。mp3:支持32000、44100 Hz,默认44100 Hz streamboolean可选 是否流媒体输出 speednumber可选 生成音频的速度。从0.25到4.0中选择一个值。1.0是默认值 gainnumber可选 音频增益控制-10 <= x <= 10 | ||||
API价格表
$¥ 円 ₽
| 模型 | 说明 | 302.AI价格 |
|---|
创建语音转文本请求(CosyVoice2-0.5B) | 创建语音转文本请求 |
|
上传参考音频(CosyVoice2-0.5B) | 上传参考音频 |
|
删除参考音频 | 删除参考音频 |
|