Mad Pod Racing을 위한 Multi-Agent PPO에서 입력 데이터 정규화 문제

핵심 요약

Multi-Agent PPO 학습 시 단순 최대값 스케일링보다 Z-score 정규화에서 성능이 하락하는 현상의 원인과 해결책이 확인됐다.

배경

CodinGame의 Mad Pod Racing 환경에서 Multi-Agent PPO를 구현하던 중, 입력 데이터를 단순 최대값으로 나눈 방식보다 Z-score 정규화를 적용했을 때 성능이 저하되어 해결 방법을 문의했다.

의미 / 영향

강화학습 시스템 구축 시 데이터 전처리는 정적인 기법을 넘어 알고리즘의 학습 역학을 고려한 동적 전략이 필요함을 시사한다. 단순한 수식 적용보다는 프레임워크 수준에서 검증된 정규화 로직을 참고하는 것이 실무적으로 유리하다.

커뮤니티 반응

질문에 대해 기술적인 분석과 구현상의 주의점을 공유하며 해결책을 모색하는 분위기이다.

주요 논점

01중립다수

정규화는 이론적으로 도움이 되지만 RL의 동적인 특성을 반영하지 못한 정규화는 학습을 방해할 수 있다.

합의점 vs 논쟁점

합의점

강화학습에서 입력 데이터의 스케일링은 학습 안정성에 결정적인 영향을 미친다
PPO 알고리즘은 입력 분포 변화에 민감하게 반응한다

논쟁점

단순 최대값 스케일링과 Z-score 정규화 중 어떤 것이 초기 학습에 더 유리한가

실용적 조언

강화학습 관측치 정규화 시에는 고정된 평균 대신 이동 평균과 이동 분산을 사용하여 실시간으로 스케일을 조정하라.

전문가 의견

강화학습 전문가들은 관측치 정규화와 보상 스케일링을 PPO의 핵심적인 구현 트릭으로 간주하며 이를 올바르게 처리하지 않으면 알고리즘이 전혀 수렴하지 않을 수 있다는 점이 강조됐다.

언급된 도구

PPO추천

강화학습 알고리즘

섹션별 상세

작성자는 CodinGame의 Mad Pod Racing 환경에서 Multi-Agent PPO를 구현하며 입력 데이터 스케일링 실험을 진행했다. 거리(0-16000)와 속도(0-700) 데이터를 각각의 최대값으로 나누어 [0, 1] 범위로 맞췄을 때는 성능이 어느 정도 안정적으로 유지되었다. 그러나 평균을 빼고 표준편차로 나누는 Z-score 정규화를 적용하자 오히려 성능이 크게 하락하는 현상이 발생했다. 이는 과거 CNN 기반 이미지 인식 프로젝트에서도 경험했던 문제라며 구현상의 오류인지 혹은 정규화 자체의 문제인지 의문을 제기했다.

강화학습에서 입력 데이터 정규화는 신경망의 수렴 속도를 높이고 학습 안정성을 확보하기 위해 권장되는 기법이다. 하지만 고정된 데이터셋을 사용하는 지도 학습과 달리, 강화학습은 에이전트의 정책이 변함에 따라 수집되는 데이터의 분포가 실시간으로 변하는 특성을 가진다. 만약 전체 학습 데이터의 통계치를 미리 알 수 없는 상태에서 잘못된 평균이나 표준편차를 적용하면 신경망에 전달되는 신호가 왜곡될 수 있다. 특히 PPO는 정책 업데이트 시 클리핑 메커니즘을 사용하므로 입력값의 급격한 변화가 학습 실패로 이어지기 쉽다.

토론에서는 정규화 파라미터를 실시간으로 업데이트하는 이동 평균(Running Mean)과 이동 분산(Running Variance) 방식의 올바른 구현 여부가 핵심으로 지목되었다. 많은 오픈소스 RL 프레임워크는 관측치를 정규화할 때 현재까지의 경험을 바탕으로 통계치를 갱신하며, 이 과정에서 수치적 안정성을 위해 아주 작은 값을 더하는 등의 처리를 수행한다. 작성자의 경우 이러한 동적 정규화 로직이 부재하거나, 학습 초기 단계에서 불안정한 통계치가 신경망 가중치를 망가뜨렸을 가능성이 크다. 또한 입력값뿐만 아니라 보상에 대해서도 적절한 스케일링이 병행되어야 PPO가 제대로 작동한다는 점이 확인됐다.

실무 Takeaway

단순 최대값 스케일링은 특정 환경에서 Z-score 정규화보다 초기 학습 안정성이 높을 수 있다.
강화학습의 동적 특성을 고려하여 관측치 정규화 시에는 고정된 통계치 대신 이동 통계량(Running Statistics)을 활용해야 한다.
PPO의 성능은 입력 데이터, 보상, 가치 함수의 스케일이 적절히 정렬되었을 때 극대화된다.