잠재 액션
관측 간 변화를 압축한 표현으로, downstream 정책 학습에서 관찰 간 전이 정보를 전달하는 벡터/토큰으로 해석된다. PoLAR는 이를 radial-디자인으로 분해한다.