企业级AI资源平台 - 302.AI | 按用量付费，全模型API接入，应用在线使用

FunAudioLLM/CosyVoice2-0.5B

FunAudioLLM/CosyVoice2-0.5B

来自硅基流动的文本转语音模型CosyVoice2-0.5B

2025-06-12

音视频处理

价格:

$7/1M tokens

大额采购联系客户经理享专属优惠

API介绍

来自硅基流动的文本转语音模型CosyVoice2-0.5B

API调试台

登录后，探索更多精彩功能！点击登录

API统计

API列表 (3)

API描述	接口地址	请求方法	稳定性	参数说明
上传参考音频	https://api.302.ai/siliconflow/v1/uploads/audio/voice	POST	稳定	查看详情
暂无数据
删除参考音频	https://api.302.ai/siliconflow/v1/audio/voice/deletions	POST	稳定	查看详情
暂无数据
FunAudioLLM/CosyVoice2-0.5B文本转语音	https://api.302.ai/siliconflow/v1/audio/speech	POST	稳定	查看详情
文档详情 CosyVoice 2 是一个基于大语言模型的流式语音合成模型，采用统一的流式/非流式框架设计。该模型通过有限标量量化（FSQ）来提升语音 token 的编码本利用率，简化了文本到语音的语言模型架构，并开发了支持不同合成场景的分块感知因果流匹配模型。在流式模式下，模型可实现 150ms 的超低延迟，同时保持与非流式模式几乎相同的合成质量。支持模型：FunAudioLLM/CosyVoice2-0.5B 收费Input：0.007PTC/1000Token 请求参数 Header参数 Authorizationstring 可选示例值:`Bearer {{YOUR_API_KEY}}` Content-Typestring 可选示例值:`application/json` Body参数 application/json modelenum<string> 必需 FunAudioLLM/CosyVoice2-0.5B 枚举值: `FunAudioLLM/CosyVoice2-0.5B` inputstring 必需对于自然语言指令，请在自然语言描述之前添加特殊的结束标记"<\|endofprompt\|>“。这些描述涵盖了情感、语速、角色扮演和方言等方面。使用”[笑声]“和”[呼吸]"等标记在文本中插入音效。所需字符串长度：1 - 128000 voiceenum<string> 可选可选的预设音色枚举值: `FunAudioLLM/CosyVoice2-0.5B:alexFunAudioLLM/CosyVoice2-0.5B:annaFunAudioLLM/CosyVoice2-0.5B:bellaFunAudioLLM/CosyVoice2-0.5B:benjaminFunAudioLLM/CosyVoice2-0.5B:charlesFunAudioLLM/CosyVoice2-0.5B:claireFunAudioLLM/CosyVoice2-0.5B:davidFunAudioLLM/CosyVoice2-0.5B:diana` referencesarray[object] 可选语音字段和引用字段是互斥的。用于音色克隆的参考音频 audiostring 可选指向音频文件的URL（例如 https://example.com/audio.mp3） textstring 可选音频内容，可以是指向音频文件的URL或base64编码的音频字符串 response_formatenum<string> 可选音频输出的格式。支持的格式为mp3、opus、wav、pcm 枚举值: `mp3opuswavpcm` sample_ratenumber 可选控制输出采样率。opus：支持48000 Hz。wav、pcm：支持8000、16000、24000、32000、44100 Hz，默认44100 Hz。mp3：支持32000、44100 Hz，默认44100 Hz streamboolean 可选是否流媒体输出 speednumber 可选生成音频的速度。从0.25到4.0中选择一个值。1.0是默认值 gainnumber 可选音频增益控制-10 <= x <= 10

API价格表

$￥円 ₽

模型	说明	302.AI价格

创建语音转文本请求(CosyVoice2-0.5B)	创建语音转文本请求	$7/1M tokens
上传参考音频(CosyVoice2-0.5B)	上传参考音频	免费
删除参考音频	删除参考音频	免费

猜你喜欢