엡실론-그리디 밴딧 (epsilon-greedy-bandit) 용어 설명 | AI Trends
epsilon-greedy-bandit
엡실론-그리디 밴딧
고급
최적의 결과를 내는 선택지를 고르는 '활용'과 새로운 가능성을 찾는 '탐색' 사이의 균형을 맞추는 강화학습 알고리즘이다. Bernstein에서는 에이전트 간의 최적 라우팅 경로를 학습하는 데 사용된다. 이를 통해 고정된 규칙보다 유연하면서도 LLM 조율 비용이 없는 효율적인 경로 선택이 가능하다.