1. Rate Limits 是什么?
Rate Limits(速率限制)指的是 API 限制用户在特定时间段内可访问服务器的次数或消耗的 token 数量。当前平台的 API 速率限制采用多种方式:
- RPM( Requests Per Minute,一分钟最多发起的请求数)
- RPH( Requests Per Hour,每小时允许的最大请求数)
- RPD( Requests Per Day,每天允许的最大请求数)
- TPM( Tokens Per Minute)则是限定每分钟消耗的 token 总数,包含输入和输出。
- TPD( Tokens Per Day,每天最多允许的 token 数)
- IPM( Images Per Minute,一分钟最多生成的图片数)
- IPD( Images Per Day,一天最多生成的图片数)
2. 为什么需要 Rate Limits?
实施速率限制是 API 服务中的常见机制,目的包括:- 防止接口被恶意滥用,比如防止短时间大量无效访问导致性能下降甚至服务不可用。
- 保证所有用户权益不被少数高频用户侵占,使 API 能保持公平分配访问资源,避免某些用户消耗过多影响他人使用体验。
- 帮助本站点为所有用户提供一致、高效的服务体验。
3. API 速率限制的具体参数
根据所用模型、接口类别以及账户类型,对账户统筹实施统一的速率策略。 举例:若账户拥有 120 RPM,则本账户每分钟最多发送 120 次请求。如已经用掉 30 次,则剩下 90 次可用于其他请求。 各接口限制明细如下: 当前并无限制4. 速率超限时的响应说明
当请求次数或 token 使用量在短时间内达到上限时,API 会返回速率受限的错误提示,此时将暂时拒绝后续请求,待冷却时间结束后方可继续访问接口。5. 速率限制与 tokens_to_generate、max_tokens
由于请求时无法精准获知输入和输出 token 总数,系统会依据接口参数max_tokens 预估该请求所用 token,并据此进行 TPM 限流。实际生成后,会用实际的 token 数进行修正。建议设置
max_tokens 的值尽可能贴合实际需求,以最大程度降低因超限导致的报错。