중요도 가중치 기반 액터-러너 아키텍처
액터(Actor)와 러너(Learner)를 분리하여 대규모 분산 학습을 가능하게 하는 강화학습 프레임워크이다. 액터는 환경에서 경험을 수집하고 러너는 이를 바탕으로 정책을 업데이트하며, V-trace 알고리즘을 통해 오프-폴리시(Off-policy) 편향을 보정한다. 대규모 컴퓨팅 자원을 효율적으로 활용하여 복잡한 환경에서 학습 속도를 획기적으로 높인다.