TL;DR
모델-기반 표현은 모델-프리스 RL의 샘플 효율을 높이려는 핵심 아이디어다. 기존 접근은 현재 상태-행동 표현과 다음 상태 표현 간의 차이를 최소화하는 데 집중하지만, 이로 인해 중요한 정보를 충분히 포착하지 못하고 초기 경험에 과도하게 적합해 버리는 편향이 생길 수 있다. DR.Q는 mutual information(I(Z_sa; Z_s'))를 증가시키는 보조 손실과 함께, 새로운 경험에 더 큰 우선순위를 부여하는 faded PER을 도입해 이 편향을 완화한다. 이로써 모델-기반 표현이 다운스트림의 actor-critic 학습에 더 풍부한 정보를 제공하게 된다.
왜 중요한가
모델-기반 표현은 모델-프리스 RL의 샘플 효율을 높이려는 핵심 아이디어다. 기존 접근은 현재 상태-행동 표현과 다음 상태 표현 간의 차이를 최소화하는 데 집중하지만, 이로 인해 중요한 정보를 충분히 포착하지 못하고 초기 경험에 과도하게 적합해 버리는 편향이 생길 수 있다. DR.Q는 mutual information(I(Z_sa; Z_s'))를 증가시키는 보조 손실과 함께, 새로운 경험에 더 큰 우선순위를 부여하는 faded PER을 도입해 이 편향을 완화한다. 이로써 모델-기반 표현이 다운스트림의 actor-critic 학습에 더 풍부한 정보를 제공하게 된다.
핵심 기여
Mutual Information 손실(IoI)을 이용한 표현 학습
InfoNCE 손실 LI를 도입하여 현재 상태-행동 표현 Z_sa와 다음 상태 표현 Z_s' 사이의 상호 정보(I(Z_sa; Z_s'))를 최대화한다. 이는 latent dynamics를 더 정보-풍부하고 구별 가능하게 만들어 가치 추정 및 정책 학습의 상한을 Tight하게 제어하도록 돕는다. 이로써 Latent Dynamics Loss와 함께 작동할 때 모델-기반 표현의 질이 향상되고, DeepMDP/ MR.Q의 이론적 경로에 부합하는 가치 오차의 상한을 더 촘촘히 줄일 수 있다.
Faded Prioritized Experience Replay (faded PER)
PER의 TD 오차 우선순위와 Forget 메커니즘의 결합인 faded PER을 제시한다. 새롭고 TD 오차가 큰 샘플에 더 높은 우선순위를 부여하고, 시간이 지남에 따라 샘플의 가중치를 감소시킨다. 이를 통해 primacy bias를 완화하고 최근의 유의미한 샘플에 더 많이 노출되도록 한다. 이론적으로는 시간 차감에 따른 샘플링 확률의 경계를 보장하고, 오래된 경험의 기대 샘플 횟수를 상한선 내로 제한한다.
DR.Q 아키텍처와 학습 파이프라인
두 단계 학습으로 구성된 일반-목적 모델-기반 RL 프레임워크를 제안한다. (i) f: s → zs, g: (zs, a) → zsa, M(zsa)로 다음 상태 표현과 보상 예측을 수행하는 엔코더를 학습하고, (ii) πϕ, Qθ를 이용해 정책과 가치 함수를 학습한다. 인코더 학습은 짧은 Horizonte(H=5) 롤아웃으로 구성되며, 타깃 인코더 fω′를 주기적으로 갱신한다. Critic는 CDQ를 사용하고, 다중 스텝 반환 HQ를 활용한다. Reward는 two-hot 인코딩으로 처리한다.
단일 하이퍼파라미터 세트로 다중 벤치마크에서의 강건성
MuJoCo, DMC, HumanoidBench의 73개 태스크에 대해 단일 고정 하이퍼파라미터 세트로 강건한 성능을 달성한다. DR.Q는 SimBaV2, MR.Q, TDMPC2 등 강력 Baseline과의 비교에서 상호 보완적 강점을 보이며, 특정 태스크에서 큰 성능 향상을 기록한다. 예를 들어 DMC-Hard에서 SimBaV2 대비 15.5%, HumanoidBench(w/ hand)에서 FoG 대비 58.9%, DMC-Visual에서 MR.Q 대비 26.8%의 개선이 보고된다.
핵심 아이디어 이해하기
출발점: 모델-기반 표현은 latent dynamics 정보를 활용해 상태-행동 표현을 학습하고, 이 표현을 기반으로 정책과 가치 함수를 최적화한다. 기존 방법은 주로 Z_sa와 Z_s' 간의 수치적 차이(= latent consistency) 최소화에 의존하는 경향이 있지만, 이는 Z_sa와 Z_s' 사이의 정보 공유(I(Z_sa; Z_s'))를 항상 증가시키지 않는다. 따라서 중요한 변수를 놓치거나 과적합될 수 있다. 해결 원리: (1) InfoNCE 기반 Mutual Information Loss LI를 도입해 Z_sa와 Z_s' 간의 정보를 최대화하고, 함께 latent consistency 손실을 최소화한다. LI를 최대로 함으로써 latent dynamics의 예측력이 높아지고 가치 추정의 상한이 tighter해진다. (2) Faded PER로 샘플링 전략을 개선한다. PER의 TD 오류 기반 샘플링에 Forget 메커니즘을 더해 신참 샘플과 큰 TD 오류를 가진 샘플이 더 많이 학습에 활용되도록 한다. (3) 이 두 가지를 DR.Q의 encoders 학습 및 다운스트림 actor-critic 학습에 통합한다. 이로써 최근의 중요한 경험을 중심으로 풍부한 모델-기반 표현을 얻고, 정책 학습에 필요한 정보가 풍부하게 전달되도록 한다. 결과적으로 단일 하이퍼파라미터로 73개 태스크에서 실험적으로 강력한 샘플 효율성과 성능을 기록한다.
방법론
- DR.Q 프레임워크의 구성: encoders fω(s) → zs, gω(zs, a) → zsa, M(zsa) → (r̂, ẑs′); z̃s′은 타깃 인코더 fω′에 의해 생성된다. (2) 손실 구성: Lreward(ˆr, r) = CE(ˆr, TwoHot(r)); Ldynamics(ˆzs′, z̃s′) = E[(ˆzs′ − SG(z̃s′))^2]; LI(ˆzs′, z̃s′) = InfoNCE로 MI를 근사; 총 encoder 손실은 LDR.Q_enc = Σ_t [λr Lreward + λd Ldynamics + λm LI] (H horizon). 타깃 인코더는 주기적으로 업데이트된다. (3) Mutual Information의 수학적 근거: MI 증가 시 H(Zs′|Zsa)가 감소하며, 이는 예측의 불확실성을 줄이고 가치 오차를 더 촘촘히 제한한다. (4) 샘플링 전략: Faded PER의 공식은 P(i) = max(|δ(i)|^α, 1) × max(ϵ_low, (1−ε)^i)로 표현되며, 이는 TD 오류와 시간 인덱스를 함께 고려한다. (5) Actor-Critic 학습: Actor는 가우시안 노이즈를 더한 결정적 정책을 수행하고(ϕ), 두 개의 QC 네트워크로 critic를 구성한다. TD-업데이트는 HQ를 이용한 다중 스텝 반환과 Huber 손실을 적용한다. (6) 구현 상세: Replay 버퍼, LAP, 1D forget weight, 1D priority 등 실제 구현 세부를 DR.Q_enc, DR.Q의 학습에 반영한다. 이 모든 구성은 1M(또는 500K 프레임) 환경 스텝의 다양한 태스크에서 단일 세트 하이퍼파라미터로 동작하도록 설계되었다.
관련 Figure

DR.Q의 두-phase 학습(encoder 학습과 정책/가치 학습) 및 LI/Latent Consistency Loss의 상호 작용을 한 눈에 파악하게 한다. 모델 구성과 목표 간의 연결고리를 직관적으로 보여준다.
Figure 2. DR.Q 아키텍처 다이어그램: encoders, latent representations, mutual information 손실이 연결되는 흐름
주요 결과
주요 벤치마크에서의 성능은 DR.Q가 강력 Baseline과 대등하거나 우수한 성능을 보인다. MuJoCo 태스크들에서 DR.Q는 SimBaV2, MR.Q, TDMPC2 등과 비교해 상응하거나 초과하는 성능을 보였으며, Dog-run에서 1M 스텝으로 평균 반환 700 이상을 달성했다. DMC-Hard 태스크에서 15.5%의 개선, HumanoidBench(w/ hand)에서 FoG 대비 58.9%의 개선, DMC-Visual에서 MR.Q 대비 26.8%의 개선이 보고된다. DMC-Visual과 HumanoidBench 등 시각/고차원 태스크에서의 성능도 DR.Q가 우수했다. Ablation 연구에선 InfoNCE 손실을 제거하면 성능 저하가 발생했고, forget 및 LAP 중 하나를 제거해도 성능 저하가 확인되었다. DR.Q는 모델-기반 표현 학습에서 MI 손실의 효과를 확인했고, faded PER의 효과 역시 샘플 효율성 측면에서 중요하다는 것을 확인했다. 한 가지 한계로 Hopper-v4에서의 성능 저하 및 일부 시각 DMC 태스크의 한계가 보고되며, 단일 하이퍼파라미터 세트의 적용이 모든 태스크에 최적은 아닐 수 있다.
관련 Figure

다수 태스크의 평균 반환과 95% 신뢰구간을 통해 DR.Q의 샘플 효율성과 일반화 능력을 한 눈에 확인할 수 있다. 결과는 논문의 핵심 주장인 DR.Q의 우수한 성능과 일반화 가능성을 시각적으로 뒷받침한다.
Figure 1. Benchmark 요약: DR.Q가 MuJoCo/DMC/HumanoidBench의 다수 태스크에서 경쟁적이거나 우수한 성능을 보임을 시각적으로 제시

73개 태스크의 샘플 효율성을 종합적으로 보여주며 DR.Q의 일반성 및 강력한 샘플 효율성을 강조한다.
Figure 3. Sample efficiency 비교: DR.Q가 MR.Q, SimBaV2 등과의 상대적인 샘플 효율을 보여주는 그래프

InfoNCE 손실 제거 시 일부 태스크에서 성능 저하가 발생하며, LAP/Forget 중 하나를 제거해도 성능 저하가 확인된다. 이 그림은 MIS(정보-주도적 표현 학습)의 중요성과 샘플링 전략의 기여를 직설적으로 보여준다.
Figure 4. InfoNCE 손실 Ablation(상단) 및 샘플링 전략 Ablation(하단)

학습 곡선을 통해 DR.Q의 빠른 수렴과 안정적 학습을 확인할 수 있다. 다수 태스크에서 DR.Q가 강한 샘플 효율성을 보인다.
Figure 5. MuJoCo 학습 곡선: DR.Q가 다수 태스크에서 baselines를 따라잡거나 능가

다양한 도메인에서 DR.Q의 성능 곡선을 상세히 보여주며, HARD/ EASY 태스크에서의 차이를 확인할 수 있다. 샘플 효율성과 최종 성능의 개선이 반복적으로 나타난다.
Figure 7. DMC Hard/DMC Easy 학습 곡선—각 태스크의 전체 학습 흐름

시각 입력이 포함된 태스크에서도 DR.Q의 성능이 우수함을 확인한다. Visual 태스크에서 MR.Q/TD7 등과의 상대적 이점을 제시한다.
Figure 11. DMC-Visual 태스크의 최종 성능 비교
한계점
DR.Q의 한계로 Hopper-v4에서의 성능 저하가 보고되며, 시각적 데이터가 포함된 일부 DMC 태스크에서 전체적인 성능이 기대에 못 미치는 경우가 있다. 또한 단일의 hyperparameter 세트를 다양한 태스크에 적용하는 점이 항상 최적이라는 보장은 아니다. InfoNCE 손실과 faded PER의 추가 컴퓨테이션 비용이 증가하며, hard exploration 태스크나 비마크로프(Task)에서는 성능이 제한될 수 있다.Discrete action 태스크에 대한 확장은 추가 연구가 필요하다.
실무 활용
DR.Q는 model-based representations를 활용한 off-policy RL 알고리즘으로, 단일 하이퍼파라미터 세트로 MuJoCo, DMC, HumanoidBench의 다양한 태스크에서 우수한 샘플 효율성과 성능을 달성한다.
- 로봇 제어 연구에서 샘플 효율을 높이고 빠른 정책 학습이 필요한 시나리오
- 시뮬레이션 기반 로봇-현실 전이에서 안정적 latent dynamics 모델링 필요 시
- 고차원 시각 입력을 다루는 연속 제어 태스크에서 데이터 효율 향상
- 단일 코드 베이스를 통한 다중 태스크 일반화 연구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.