엡실론-그리디 밴딧(epsilon-greedy-bandit)이란 무엇인가요?

Question

Accepted Answer

최적의 결과를 내는 선택지를 고르는 '활용'과 새로운 가능성을 찾는 '탐색' 사이의 균형을 맞추는 강화학습 알고리즘이다. Bernstein에서는 에이전트 간의 최적 라우팅 경로를 학습하는 데 사용된다. 이를 통해 고정된 규칙보다 유연하면서도 LLM 조율 비용이 없는 효율적인 경로 선택이 가능하다.

epsilon-greedy-bandit

비슷한 개념