调用限制
为确保模型资源的高效使用,全局设置 QPS 与超时时间(Timeout)机制,以确保服务的可用性与稳定性。
限制详情
- QPS:每秒钟 2 次请求上限,超出时将提示“429 - Rate limit reached for requests”。
- Timeout:同步调用存在 90s 的超时时间,推荐使用流式调用。
常见问题
1. 什么是 QPS
QPS (Queries Per Second) 是指每秒查询率,是表示服务器每秒能接受并处理的请求数量的指标。
2. 为什么要设置 QPS
设置 QPS 是 API 的常见做法,实施速率限制有几个不同的原因:
-
有助于防止 API 被滥用和误用。例如,防止有些用户恶意的超载调用 API,试图使其过载或导致服务中断。我们通过设置速率限制可以防止此类恶意使用的发生;
-
速率限制有助于确保每个人都可以公平访问 API。防止一个人或组织发出过多的请求,造成可能会使其他人的 API 资源分配不均的情况。通过限制单个用户可以发出的请求数量,可以确保最多的人有机会使用 API,而不会遇到速度变慢的情况。
3. 如果请求超出限制会有什么表现
当触发速率限制时,你将收到状态码为429的速率限制返回报错,其表示您在短时间内发出了太多请求,或者短时间发出了太多的字符。此时 API 将会拒绝满足进一步的请求,直到经过指定的时间。
Was this page helpful?
Last updated on