Rate Limits

Rate Limits（速率限制）指的是 API 限制用户在特定时间段内可访问服务器的次数或消耗的 token 数量。
当前平台的 API 速率限制采用多种方式：

实施速率限制是 API 服务中的常见机制，目的包括：

根据所用模型、接口类别以及账户类型，对账户统筹实施统一的速率策略。举例：若账户拥有 120 RPM，则本账户每分钟最多发送 120 次请求。如已经用掉 30 次，则剩下 90 次可用于其他请求。 各接口限制明细如下： 当前并无限制

当请求次数或 token 使用量在短时间内达到上限时，API 会返回速率受限的错误提示，此时将暂时拒绝后续请求，待冷却时间结束后方可继续访问接口。

    HTTP/1.1 429
    Too Many Requests
    Content Type: application/json
    当前分组上游负载已饱和，请稍后再试

由于请求时无法精准获知输入和输出 token 总数，系统会依据接口参数max_tokens 预估该请求所用 token，并据此进行 TPM 限流。实际生成后，会用实际的 token 数进行修正。
建议设置 max_tokens 的值尽可能贴合实际需求，以最大程度降低因超限导致的报错。

鉴于 API 会分别管控请求数和 token 总量，建议大家合并批量请求。在请求次数达到上限但 token 数仍有余量时，可以把多个任务合并到一个请求，以提升 token 的处理效率。

默认限制旨在维护 API 的稳定及公平分配资源。如需更高速率，或单独供应，可联系商务经理进行申请。