rate-limiting
특정 시간 내에 API에 보낼 수 있는 요청의 수를 제한하는 메커니즘이다. 자율 에이전트가 단시간에 많은 요청을 보낼 경우 서비스 제공업체에 의해 차단될 수 있어 이를 관리하는 설계가 중요하다.
5천 명이 동시에 답장한다면? LLM 봇 확장의 기술적 병목 현상
10년 된 맥 미니로 자율형 AI 에이전트를? 제약된 환경에서의 아키텍처 설계
OpenAI는 어떻게 초당 수백만 건의 PostgreSQL 쿼리를 처리할까?