企业级AI资源平台 - 302.AI | 按用量付费，全模型API接入，应用在线使用

gpt-4o-transcribe

gpt-4o-transcribe

来自OpenAI的语音转文字模型

2025-10-31

音视频处理

输入:

$6/1M tokens

输出:

$10/1M tokens

大额采购联系客户经理享专属优惠

API介绍

GPT-4o-Transcribe 是 OpenAI 推出的高精度语音转文本模型，基于 GPT-4o 架构，专为语音识别任务优化。该模型在多语言、多口音和嘈杂环境下表现优异，显著降低了单词错误率（WER），尤其在英语和其他主要语言中。适用于会议记录、客户服务、媒体字幕等场景。

相关测评：《当准确率不再是唯一标准：三款主流STT语音转文字模型实测横评》

API调试台

登录后，探索更多精彩功能！点击登录

API统计

API列表 (1)

API描述	接口地址	请求方法	稳定性	参数说明
Transcriptions（语音转文字）	https://api.302.ai/v1/audio/transcriptions	POST	稳定	查看详情
文档详情官方指南官方API文档将音频转录为输入语言。转录API接受您想要转录的音频文件作为输入，以及您希望的音频转录输出文件格式。我们目前支持多种输入和输出文件格式。支持模型： whisper-1 gpt-4o-transcribe gpt-4o-mini-transcribe gpt-4o-transcribe-diarize 价格： whisper-1：0.006 PTC /分钟 gpt-4o-transcribe：输入 6PTC/1M Tokens 输出 10PTC/1M Tokens gpt-4o-transcribe-diarize：输入 6PTC/1M Tokens 输出 10PTC/1M Tokens gpt-4o-mini-transcribe：输入 3PTC/1M Tokens 输出 5PTC/1M Tokens 请求参数 Header参数 Acceptstring 必需示例值:`application/json` Authorizationstring 可选示例值:`Bearer {{YOUR_API_KEY}}` Body参数 multipart/form-data filestring 必需要转录的音频文件，采用以下格式之一：mp3、mp4、mpeg、mpga、m4a、wav 或 webm。必须保持文件后缀与实际的格式是相符合的，不然会失败 modelenum<string> 必需要使用的模型的 ID 枚举值: `whisper-1gpt-4o-transcribegpt-4o-mini-transcribegpt-4o-transcribe-diarize` 示例值:`whisper-1` promptstring 可选可选文本，用于指导模型的风格或继续之前的音频片段。提示应与音频语言相匹配。 response_formatenum<string> 可选成绩单输出的格式，采用以下选项：json 枚举值: `jsontextsrtverbose_jsonvttdiarized_json` 示例值:`json` temperaturenumber 可选采样温度，介于 0 和 1 之间。较高的值（如 0.8）将使输出更加随机，而较低的值（如 0.2）将使输出更加集中和确定。如果设置为 0，模型将使用对数概率自动升高温度，直到达到特定阈值。 languagestring 可选输入音频的语言。以ISO-639-1格式提供输入语言将提高准确性和延迟。 chunking_strategystring 可选 “自动”或对象选修的控制音频如何被分割成块。启用此选项后"auto"，服务器会先对音量进行标准化，然后使用语音活动检测 (VAD) 来确定分割边界。server_vad可以提供一个对象来手动调整 VAD 检测参数。如果未设置，音频将被转录为一个单独的块。当输入gpt-4o-transcribe-diarize音频超过 30 秒时，此选项为必填项。默认为：{“type”:“server_vad”}，详见官方文档

API价格表

$￥円 ₽

模型	说明	官网原价	302.AI价格	官网价差

gpt-4o-transcribe

-

输入 $6 / 1M tokens
输出 $10 / 1M tokens

输入 $6 / 1M tokens
输出 $10 / 1M tokens

原价

猜你喜欢