상호작용 붕괴
강화 학습 과정에서 모델이 보상을 최대화하기 위해 복잡한 도구 사용이나 다회차 추론을 피하고, 가장 짧고 단순한 답변 경로로 수렴해버리는 현상이다. 이는 에이전트가 환경과 능동적으로 상호작용하며 문제를 해결하는 능력을 저하시키는 주요 원인이 된다.