跳转到主要内容

1. Rate Limits 是什么?

Rate Limits(速率限制)指的是 API 限制用户在特定时间段内可访问服务器的次数或消耗的 token 数量。
当前平台的 API 速率限制采用多种方式:
  • RPM( Requests Per Minute,一分钟最多发起的请求数)
  • RPH( Requests Per Hour,每小时允许的最大请求数)
  • RPD( Requests Per Day,每天允许的最大请求数)
  • TPM( Tokens Per Minute)则是限定每分钟消耗的 token 总数,包含输入和输出。
  • TPD( Tokens Per Day,每天最多允许的 token 数)
  • IPM( Images Per Minute,一分钟最多生成的图片数)
  • IPD( Images Per Day,一天最多生成的图片数)

2. 为什么需要 Rate Limits?

实施速率限制是 API 服务中的常见机制,目的包括:
  • 防止接口被恶意滥用,比如防止短时间大量无效访问导致性能下降甚至服务不可用。
  • 保证所有用户权益不被少数高频用户侵占,使 API 能保持公平分配访问资源,避免某些用户消耗过多影响他人使用体验。
  • 帮助本站点为所有用户提供一致、高效的服务体验。

3. API 速率限制的具体参数

根据所用模型、接口类别以及账户类型,对账户统筹实施统一的速率策略。 举例:若账户拥有 120 RPM,则本账户每分钟最多发送 120 次请求。如已经用掉 30 次,则剩下 90 次可用于其他请求。 各接口限制明细如下: 当前并无限制

4. 速率超限时的响应说明

当请求次数或 token 使用量在短时间内达到上限时,API 会返回速率受限的错误提示,此时将暂时拒绝后续请求,待冷却时间结束后方可继续访问接口。
    HTTP/1.1 429
    Too Many Requests
    Content Type: application/json
    当前分组上游负载已饱和,请稍后再试

5. 速率限制与 tokens_to_generate、max_tokens

由于请求时无法精准获知输入和输出 token 总数,系统会依据接口参数max_tokens 预估该请求所用 token,并据此进行 TPM 限流。实际生成后,会用实际的 token 数进行修正。
建议设置 max_tokens 的值尽可能贴合实际需求,以最大程度降低因超限导致的报错。

6. 在限速策略下的优化建议

鉴于 API 会分别管控请求数和 token 总量,建议大家合并批量请求。在请求次数达到上限但 token 数仍有余量时,可以把多个任务合并到一个请求,以提升 token 的处理效率。

7. 如何提升速率限制

默认限制旨在维护 API 的稳定及公平分配资源。如需更高速率,或单独供应,可联系商务经理进行申请。