궤도 역학 강화학습 문제: 결정론적 환경에서 성능 정체 현상 해결 방법

핵심 요약

궤도 역학 기반의 결정론적 환경에서 RL 모델이 80% 성공률에 정체되는 현상에 대해 아키텍처와 비평가(Critic) 성능 관점에서 해결책을 모색한다.

배경

우주선이 궤도를 도는 소행성을 맞추는 궤도 역학 환경에서 RL 에이전트를 학습시켰으나, 결정론적이고 완전 관측 가능한 환경임에도 불구하고 성공률이 80%에서 정체되는 문제를 겪고 있다. 작성자는 MLP와 트랜스포머 아키텍처를 모두 시도했으나 동일한 한계에 부딪혔으며, 비평가(Critic)의 가치 예측 성능 분석을 통해 원인을 파악하고자 한다.

의미 / 영향

이 토론은 RL 모델이 수학적으로 명확한 물리 환경에서도 아키텍처 한계로 인해 성능 정체를 겪을 수 있음을 보여준다. 특히 비평가의 예측 불일치 현상을 통해 보상 신호의 전파나 가치 함수 근사의 어려움을 해결하는 것이 성능 돌파의 핵심임이 확인됐다.

커뮤니티 반응

작성자가 Colab 노트북을 공유하며 커뮤니티의 참여를 유도하고 있으며, 물리 엔진과 RL 아키텍처의 결합 문제에 대해 기술적인 분석이 진행 중이다.

합의점 vs 논쟁점

합의점

현재 사용 중인 MLP와 트랜스포머 모델 모두 80% 성공률 근처에서 수렴하며 더 이상의 성능 향상이 어렵다.
비평가 모델이 정책 모델보다 상대적으로 더 나은 성능을 보이지만 여전히 실패 예측에 취약하다.

실용적 조언

비평가(Critic)의 손실 함수나 가치 예측 분포를 시각화하여 모델이 어떤 상황에서 실패를 예측하지 못하는지 구체적으로 분석해야 한다.
ReLU 대신 물리적 비선형성을 더 잘 표현할 수 있는 활성화 함수나 궤도 역학에 특화된 아키텍처를 검토해야 한다.

전문가 의견

피드포워드 ReLU 네트워크가 궤도 역학의 연속적인 물리 변화를 학습하는 데 부적합할 수 있다는 작성자의 견해가 제시됐다.

언급된 도구

RLlib중립

강화학습 환경 구축 및 학습 프레임워크

PPO중립

근사 정책 최적화 알고리즘

섹션별 상세

궤도 역학 환경의 특성과 성능 정체 현상에 대해 상세히 기술했다. 작성자는 우주선이 유한한 속도의 투사체를 발사하여 소행성을 맞추는 환경을 구축했으며, 수학적으로 완벽한 해가 존재하고 환경이 결정론적임에도 불구하고 평균 보상 0.8 수준에서 성능이 정체되는 현상을 겪었다. 다양한 하이퍼파라미터 조합과 MLP, 2개 층의 트랜스포머 아키텍처를 시도했으나 모두 동일한 한계선에 도달했다.

비평가(Critic)의 가치 예측 분석 결과가 공유됐다. 학습된 모델의 비평가는 명확하게 성공할 샷에 대해서는 0.5 이상의 높은 가치를 부여하며 정확하게 예측하는 경향을 보였으나, 실패할 가능성이 있는 샷인 0.0에서 0.25 범위에서는 약 33%의 미스율을 기록했다. 특히 낮은 가치 예측값에서도 실제로는 성공하는 경우가 많아 비평가가 성공과 실패를 명확히 구분하지 못하고 있음이 데이터로 확인됐다.

아키텍처 적합성에 대한 근본적인 의문이 제기됐다. 작성자는 일반적인 피드포워드 ReLU 네트워크가 궤도 역학의 복잡한 물리 법칙을 모델링하는 데 최적이 아닐 수 있다는 가설을 제시했다. 특히 속도와 각도 데이터를 마스킹 해제하여 관측 공간을 보정했음에도 정책(Policy) 성능이 개선되지 않은 점을 들어, 현재의 신경망 구조가 물리적 관계를 학습하는 데 근본적인 한계가 있음을 시사했다.

실무 Takeaway

결정론적이고 완전 관측 가능한 환경이라도 표준적인 RL 아키텍처가 최적해를 찾지 못하는 성능 정체 구간이 존재할 수 있다.
비평가(Critic)가 성공 사례는 잘 포착하지만 실패 사례에 대한 불확실성을 해소하지 못하는 것이 전체 정책 성능 향상을 저해하는 주요 원인이다.
궤도 역학과 같은 물리 법칙이 지배하는 환경에서는 단순한 MLP나 트랜스포머 이상의 특화된 신경망 구조 검토가 필요하다.