TD3를 이용한 자율주행 학습 시 동일한 스크립트임에도 모델 성능이 크게 차이 나는 문제

핵심 요약

동일한 TD3 학습 스크립트를 사용했음에도 시드 미고정과 환경 버전 차이로 인해 모델의 행동 양식과 성능이 판이하게 나타나는 현상에 대한 기술적 문의이다.

배경

MetaDrive 환경에서 TD3 알고리즘으로 자율주행 모델을 학습 중인 연구원이 지도 교수의 모델과 자신의 모델 간 성능 차이를 발견했다. 동일한 하이퍼파라미터와 구조를 사용했음에도 불구하고 본인의 모델은 제어값이 포화되는 등 불안정한 거동을 보여 원인을 분석 중이다.

의미 / 영향

이 토론은 강화학습 실험에서 코드의 동일성보다 환경의 동일성과 재현성 설정이 더 중요함을 보여준다. 실무적으로는 버전 관리와 시드 고정을 통해 실험의 변동성을 최소화하는 파이프라인 구축이 필수적이다.

커뮤니티 반응

사용자의 상황에 공감하며 재현성 확보를 위한 체크리스트를 제안하는 분위기이다.

주요 논점

01중립다수

무작위성 때문일 수도 있지만, 환경 설정의 미세한 차이가 누적된 결과일 가능성이 높다.

합의점 vs 논쟁점

합의점

시드 고정 없이는 재현이 불가능하다
라이브러리 버전 일치가 중요하다

논쟁점

단순 무작위성만으로 제어값이 포화될 정도의 차이가 발생하는가에 대한 의문

실용적 조언

set_random_seed 함수를 사용하여 모든 라이브러리의 시드를 고정할 것
Conda나 Docker를 사용하여 실행 환경을 완전히 동일하게 구축할 것

전문가 의견

강화학습 연구에서 시드 고정은 선택이 아닌 필수이며, 논문 구현 시에도 여러 시드의 평균값을 보고하는 것이 표준이다.

언급된 도구

Stable-Baselines3추천링크

강화학습 알고리즘 구현체 제공

섹션별 상세

학습 환경의 재현성 문제와 관련하여 시드(Seed) 미고정이 주요 원인으로 지목됐다. 강화학습은 초기 가중치 설정과 탐색 과정에서 무작위성이 크게 작용하므로, 시드를 고정하지 않으면 동일한 코드라도 결과가 완전히 달라질 수 있다. 특히 TD3와 같은 연속 제어 알고리즘은 초기 탐색 경로에 따라 정책이 크게 편향될 가능성이 존재한다.

소프트웨어 라이브러리 버전 차이가 미치는 영향에 대한 논의가 이루어졌다. Stable-Baselines3 2.7.0과 2.7.1 사이의 미세한 변경사항이나 Gymnasium 버전 차이는 내부적인 수치 계산이나 환경 인터페이스에 영향을 줄 수 있다. 이러한 차이는 누적되어 학습 곡선과 최종 정책의 수렴 지점을 다르게 만드는 요인이 된다.

모델의 출력값이 포화(Saturation)되는 현상은 보상 함수나 관측값 전처리의 미세한 차이에서 기인할 수 있다. 지도 교수의 모델은 부드러운 제어를 수행하는 반면, 사용자의 모델은 ±1 부근의 극단적인 값을 출력하는 것은 탐색 노이즈 설정이나 하이퍼파라미터가 실제로는 완벽히 일치하지 않을 가능성을 시사한다. 가중치(Weights)가 다르다는 점은 최적화 과정에서 서로 다른 국소 최적점(Local Minima)에 도달했음을 의미한다.

실무 Takeaway

강화학습에서 실험 재현성을 확보하기 위해서는 난수 시드(Random Seed) 고정이 필수적이다.
Python, SB3, Gymnasium 등 종속 라이브러리의 버전을 완벽히 일치시켜야 동일한 결과를 기대할 수 있다.
TD3와 같은 알고리즘은 무작위성에 매우 민감하며, 동일 조건에서도 성능 편차가 크게 발생할 수 있다.

언급된 리소스

문서Stable-Baselines3 Documentation - Reproducibility