跳转到主要内容

文本转语音

  • 端点:/audio/speech
  • 主要请求参数:
    • model:用于语音合成的模型,支持的模型列表。
    • input:待转换为音频的文本内容。
    • voice:参考音色,支持系统预置音色、用户预置音色、用户动态音色。
bash
curl https://BASE_URL/v1/audio/speech \
  -H "Authorization: Bearer $API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-4o-mini-tts",
    "input": "The quick brown fox jumped over the lazy dog.",
    "voice": "alloy"
  }' \
  --output speech.mp3

语音转文本

  • 端点:/audio/transcriptions
  • Content-Type: multipart/form-data
  • 主要请求参数:
    • model:用于语音转文本的模型,支持的模型列表。
    • file:待转换为文本的音频文件。
bash
curl https://BASE_URL/v1/audio/transcriptions \
  -H "Authorization: Bearer $API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F file="@/path/to/file/audio.mp3" \
  -F model="gpt-4o-transcribe"

语音转语音

该场景目前仅 Elevenlabs 模型支持,请参考对应文档。

注意事项

  1. 使用时需要将 OPENAI_BASE_URL 设置为 https://BASE_URL/v1
  2. OPENAI_API_KEY 应设置为您的 API Key
  3. 大部分模型已适配OpenAI生图接口,个别模型未适配,请参考模型文档。

相关链接