Stable Baselines3(SB3)와 트랜스포머를 이용한 포트폴리오 최적화 PPO 정책 구현 및 학습 불안정성 문제

핵심 요약

Stable Baselines3 환경에서 트랜스포머 기반의 커스텀 Actor-Critic 정책을 사용하여 다중 자산 포트폴리오 관리자를 구현했으나, 학습 불안정성과 성능 미달 문제를 해결하기 위한 기술적 피드백을 요청했다.

배경

사용자는 SB3의 PPO 알고리즘에 트랜스포머 인코더를 mlp_extractor로 결합한 커스텀 정책을 설계하여 포트폴리오 최적화 에이전트를 구축했다. 하지만 모델이 유의미한 보상을 얻지 못하고 학습이 불안정한 상태를 보여, 아키텍처 설계의 적절성과 PPO 가우시안 액션의 소프트맥스 변환 등 구현상의 잠재적 결함에 대해 조언을 구했다.

의미 / 영향

이 토론은 복잡한 금융 데이터와 트랜스포머 아키텍처를 SB3와 같은 표준 RL 라이브러리에 통합할 때 발생하는 전형적인 엔지니어링 난관을 보여준다. 단순한 모델 구현을 넘어 액션 공간의 수학적 투영과 정규화 통계 관리 등 시스템 전체의 일관성이 DRL 성공의 핵심임을 시사한다.

커뮤니티 반응

작성자는 자신의 구현에서 발생할 수 있는 4가지 잠재적 위험 요소를 스스로 분석하며 커뮤니티의 기술적 검토를 요청했다. 특히 DRL 초보자로서 아키텍처의 근본적인 설계 결함 여부에 집중하고 있으며, 깃허브 코드를 공유하여 구체적인 구현 피드백을 유도했다.

실용적 조언

트랜스포머 입력 시 각 자산에 대한 고유 ID 임베딩을 추가하여 모델이 자산별 특성을 구분하게 할 것
PPO의 가우시안 액션 대신 디리클레(Dirichlet) 분포를 고려하거나 소프트맥스 변환 전후의 그래디언트 흐름을 점검할 것
VecNormalize의 training=False 설정을 평가 환경에서 정확히 적용했는지 재확인할 것
비평가(Critic) 네트워크가 포트폴리오 전체 상태를 나타내는 전용 토큰을 올바르게 참조하는지 인덱싱 코드를 검토할 것

언급된 도구

Stable Baselines3추천링크

강화학습 알고리즘(PPO) 구현 및 훈련 프레임워크

PPO중립

온폴리시(On-policy) 강화학습 알고리즘

섹션별 상세

커스텀 Actor-Critic 정책 아키텍처와 트랜스포머 기반의 특징 추출기 설계가 SB3의 표준 설계 의도와 부합하는지 검토가 필요하다. 사용자는 BaseFeaturesExtractor를 통해 자산 토큰(26차원)과 포트폴리오 토큰을 생성하고 이를 트랜스포머 인코더에 전달하는 구조를 취했다. 이 과정에서 토큰 인덱싱 오류나 비평가(Critic) 헤드가 참조하는 토큰이 실제 가치 판단에 필요한 정보와 일치하지 않을 가능성이 제기됐다.

PPO의 가우시안 액션(Gaussian Actions)을 환경 내부에서 소프트맥스(Softmax)를 통해 포트폴리오 가중치로 변환하는 방식의 수학적 타당성이 논의됐다. 제약 없는 연속적 액션 공간을 심플렉스(Simplex) 공간으로 강제 투영할 때 발생하는 그래디언트 왜곡이 학습 불안정의 핵심 원인일 수 있다는 의구심이 포함됐다. 이는 에이전트가 탐색하는 파라미터 변화가 실제 가중치 변화로 적절히 전달되지 못하는 문제를 야기한다.

학습과 평가 환경 간의 VecNormalize 통계 동기화 및 고정된 SAA(Single Asset Agent) 신호 활용의 복잡성이 지적됐다. 사용자는 단일 자산 에이전트의 출력을 특징값으로 재사용하는 래퍼 구조를 사용했으나, 평가 시 정규화 통계치가 학습 시와 일치하지 않을 위험이 존재한다. 또한 엔트로피 스케줄링 콜백이 트랜스포머의 복잡한 어텐션 메커니즘과 충돌하여 수렴을 방해하는지 여부도 주요 확인 사항이다.

트랜스포머 모델이 각 자산의 고유한 정체성을 유지하며 학습할 수 있도록 돕는 명시적인 자산 ID 임베딩(Asset-ID Embedding)의 부재가 언급됐다. 현재 구조는 시장 특징과 가중치만으로 토큰을 구성하여 트랜스포머가 자산 간의 상대적 관계는 파악할 수 있으나 개별 자산의 장기적 특성을 인코딩하는 데 한계가 있다. 자산 식별자가 없을 경우 모델이 일반화된 패턴에만 의존하게 되어 정교한 할당 전략 수립이 어려워진다.

실무 Takeaway

SB3에서 트랜스포머를 mlp_extractor로 사용할 때는 토큰 인덱싱과 가치 함수(Value Function) 헤드의 연결 구조를 엄격히 검증해야 한다.
가우시안 분포 기반의 PPO 액션을 소프트맥스로 변환하여 포트폴리오 가중치를 생성하는 방식은 그래디언트 전파를 왜곡할 위험이 크다.
VecNormalize를 사용할 경우 학습과 평가 단계 사이의 통계치(Mean, Variance) 동기화가 모델 성능 재현의 필수 조건이다.
다중 자산 트랜스포머 모델에서는 각 자산의 고유 특성을 구분하기 위한 자산 ID 임베딩 도입이 권장된다.

언급된 리소스

GitHubpytrade GitHub Repository