MetaDrive에서 TD3를 이용한 다중 씬(Multi-scene) 강화학습 훈련 전략 및 성능 분석

핵심 요약

MetaDrive 환경에서 TD3 모델을 훈련할 때 씬별 순차적 학습과 데이터 서브셋 선택이 성능에 미치는 영향을 실험적으로 분석하고 최적의 훈련 방식을 모색한다.

배경

MetaDrive 환경에서 TD3 알고리즘을 사용하여 10개의 시나리오를 학습시키려 했으나, 동시 학습 및 단순 순차 학습에서 성능 저하를 겪어 다양한 훈련 스케줄링 실험을 진행했다.

커뮤니티 반응

작성자가 상세한 실험 수치와 시나리오 번호를 공유하며 질문을 던졌으며, 다중 환경 강화학습에서의 표준적인 훈련 프로토콜에 대한 논의가 이루어지고 있다.

주요 논점

01중립다수

순차적 학습이 특정 조건에서 우수했으나 학습량 증가 시 성능이 깨지는 현상에 대한 원인 분석이 필요하다.

합의점 vs 논쟁점

합의점

단순히 학습 스텝을 늘리는 것이 성능 향상으로 직결되지 않는다.
특정 시나리오 조합이 전체 학습 안정성에 큰 영향을 미친다.

논쟁점

일반적으로 권장되는 인터리브(Interleaved) 방식이 왜 이 실험에서는 실패했는가에 대한 의문이 존재한다.

실용적 조언

성능이 불안정할 경우 전체 데이터셋 대신 학습이 잘 되는 서브셋을 먼저 선정하여 훈련해 볼 것
순차 학습 시 각 단계의 스텝 수를 조절하여 과적합과 망각 사이의 균형을 찾을 것

언급된 도구

TD3중립

연속적 액션 공간을 위한 강화학습 알고리즘

MetaDrive추천

자율주행 및 강화학습 연구를 위한 시뮬레이션 환경

섹션별 상세

동시 학습(Joint Training)과 단순 순차 학습의 한계가 확인됐다. 10개의 씬을 동시에 10만 스텝 학습하거나, 각 씬을 10만 스텝씩 순차적으로 총 100만 스텝 학습했을 때 모두 성능이 저조하게 나타났다. 이는 모델이 복잡한 환경 변화에 적응하지 못하거나 파라미터 업데이트가 효율적으로 이루어지지 않았음을 시사한다.

특정 시나리오 선택 및 순차 학습의 성공 사례가 발견됐다. 성능이 안정적이었던 6개의 씬(0, 1, 3, 6, 7, 8)을 선별하여 각 씬당 10만 스텝씩 순차적으로 학습시킨 결과 매우 우수한 성능을 보였다. 모델을 리셋하지 않고 연속적으로 학습시키는 방식이 특정 조건에서 효과적임이 확인됐다.

학습량 증가에 따른 성능 퇴화 현상이 관찰됐다. 각 씬당 학습 스텝을 20만 또는 30만으로 늘렸을 때 오히려 성능이 저하되고 특정 씬에서 고착되는 현상이 발생했다. 이는 과적합(Overfitting)이나 파괴적 망각(Catastrophic Forgetting)이 발생하여 일반화 능력이 상실되었을 가능성을 보여준다.

배치 방식 및 인터리브(Interleaved) 학습의 실패 결과가 도출됐다. 5천 스텝씩 씬을 교체하며 반복 학습하는 인터리브 방식은 기대와 달리 성능이 좋지 않았다. 짧은 주기적인 환경 변화가 에이전트의 안정적인 정책 수립을 방해한 것으로 분석된다.

실무 Takeaway

모든 시나리오를 한꺼번에 학습시키는 것보다 성능이 잘 나오는 시나리오를 선별하여 집중 학습시키는 것이 초기 성능 확보에 유리하다.
순차적 학습 시 각 단계의 학습량이 너무 많으면(200k 이상) 오히려 일반화 성능이 떨어지고 불안정해질 수 있다.
단순한 인터리브(Interleaved) 방식이 항상 정답은 아니며, 환경의 특성에 맞는 적절한 학습 스케줄링이 필수적이다.