상호작용 붕괴(interaction-collapse)이란 무엇인가요?

Question

Accepted Answer

강화 학습 과정에서 모델이 보상을 최대화하기 위해 복잡한 도구 사용이나 다회차 추론을 피하고, 가장 짧고 단순한 답변 경로로 수렴해버리는 현상이다. 이는 에이전트가 환경과 능동적으로 상호작용하며 문제를 해결하는 능력을 저하시키는 주요 원인이 된다.

interaction-collapse