TL;DR
RFT는 SFT보다 망각에 강하나 여전히 시각적 지속 학습의 도전인 CIL/DIL에서 망각이 발생한다. RaPO는 trajectory-level drift를 보상 신호로 활용하고 Cross-Task 보상 정규화를 도입하여 태스크 간 이동에도 지식을 안정적으로 보존한다.
왜 중요한가
RFT는 SFT보다 망각에 강하나 여전히 시각적 지속 학습의 도전인 CIL/DIL에서 망각이 발생한다. RaPO는 trajectory-level drift를 보상 신호로 활용하고 Cross-Task 보상 정규화를 도입하여 태스크 간 이동에도 지식을 안정적으로 보존한다.
핵심 기여
Retention-aware Policy Optimization (RaPO)
RaPO는 Retention Reward와 CTAN으로 구성된 간단하지만 효과적인 RFT 방법으로, trajectory-level drift를 보상으로 삼아 학습 신호를 조정하고 파고들기와 보존 간의 균형을 맞춘다.
Trajectory-level drift agnosticism의 실증
동일 task reward를 갖는 서로 다른 롤아웃 간의 KL 발산 차이가 forgetting과 strong하게 상관한다는 것을 실험적으로 확인한다.
Cross-Task Advantage Normalization (CTAN)
task 경계에서 보상 분포의 스케일 변화를 EMA로 안정화해 크레딧 어택을 부드럽게 유지한다.
다양한 시각적 지속 학습 설정에서의 광범위한 평가
RaPO를 class-incremental/ domain-incremental 이미지 분류, 영상 분류, 객체 탐지에서 다중 벤치마크로 평가한다.
핵심 아이디어 이해하기
기존 GRPO의 보상 중심 학습은 같은 보상이라도 드리프트 크기가 큰 롤아웃에 대해 서로 다른 정책 업데이트를 유도한다. RaPO는 드리프트를 Dense한 보상 신호로 바꿔, 낮은 drift를 가진 롤아웃에 더 큰 가치를 부여하고, CTAN으로 task 경계의 보상 규모를 안정시켜 학습의 안정성과 지식 보존을 동시에 달성한다.
방법론
개요: 연속 태스크 T1~TN에서 각 Taskt를 만났을 때, 예전 Task의 데이터에 접근 없이 학습한다. 앵커 정책 πt−1과 현재 정책 πt를 두고, 그룹 내 롤아웃에 대해 Rtask와 Rret를 합친 Rtotal을 얻은 뒤, group-relative advantage Ai를 계산한다. 유지와 적응의 trade-off를 제어하기 위해 CTAN으로 σ̂을 업데이트하고, 이를 이용해 Ai를 정규화한다. Retention Reward D̄drift(yi)를 exp(−α D̄drift(yi))로 매핑해 Rret를 얻고, Rtotal = Rtask + λ Rret로 업데이트한다. 또한 CTAN은 Task 경계에서의 보상 분포 변화를 완만하게 만들어 학습 안정성을 높인다.
관련 Figure

프롬프트 템플릿은 이미지/비디오 분류와 객체 탐지에 대한 보상 설계 및 출력 형식을 시각화한다. 방법론(section)에서 구현 상세를 나타낸다.
Prompt Template 및 Output Format를 보여주는 스크린샷
주요 결과
실험은 ImageNet-R, ImageNet-A, TinyImageNet, CUB-200에서 10/20 Task 설정으로 수행되었다. RaPO는 GRPO 대비 A에서 큰 향상을 보였고 F와 Ab, Fb 지표에서 망각을 크게 감소시켰다. 예를 들어 ImageNet-R 10 Tasks에서 RaPO의 A는 85.92%, F는 4.69%로 GRPO의 74.67%/20.02%에서 상승했고, COCO Object Detection에서 Ab는 19.31%, Fb는 1.39%로 GRPO의 14.64%/6.67% 대비 향상되었다. 또한 DIL/영상 분류/도메인 간 변환에서도 RaPO가 일관된 개선을 보였다.
관련 Figure

Figure 2의 (a)와 (b) 패널은 Reward Std와 Advantage Magnitude의 변화를 보여주며, drift와 성능 간의 연결고리를 시사한다. (c) 패널은 Retention Reward의 실제 변화 추이를 보여주고, (d) 패널은 성능 지표의 안정성을 보여준다.
RaPO의 Retention Reward와 CTAN의 효과를 시각화한 그래프

Figure 2의 (a)-(d) 패널은 두 구성요소의 효과를 한꺼번에 보여주며, CRPO 대비 RaPO의 안정적 학습과 보존 효과를 시각적으로 제시한다.
Retention Reward 추적과 CTAN 정규화의 효과를 종합한 다중 패널 이미지

Task 간 전이에서 RaPO의 보상 신호가 GRPO에 비해 더 안정적으로 유지되며 Retention Reward의 효과를 뒷받침한다.
Retention Reward Dynamics를 보여주는 그래프

Figure 6은 RaPO와 GRPO의 예시 결과를 시각화하며, RaPO가 초기 학습 클래스를 이후 태스크에서도 더 잘 유지함을 보여준다.
Qualitative class-incremental image classification 예시 (Birds/Cats 등)
기술 상세
RaPO의 Retention Reward는 Trajectory-level drift D̄drift를 기반으로 계산된다. yi 롤아웃의 s번째 토큰에 대한 log-prob 비율을 πt와 πt−1 사이에서 평균화하여 D̄drift(yi) = max( (1/mi) Σs [log πt(ys|x, y< s) − log πt−1(ys|x, y< s)], 0 ), 이 값을 α를 통해 지수적으로 매핑한 Rret(yi) = exp(−α D̄drift(yi))로 바꾼다. Rtotal(yi) = Rtask(yi) + λ Rret(yi)로 정의되며, Ai = (Rtotal(yi) − µgroup)/ (σ̂ + ϵ)로 group-relative advantage를 계산한다. CTAN은 σ̂를 업데이트하는 EMA와 함께 태스크 경계에서의 보상 스케일 변화를 완만하게 만들어 학습의 안정성을 강화한다.
실무 활용
RaPO는 비 rehearsal 기반의 시각적 continual learning에 적용 가능한 간단한 개선 방식으로, 실제 멀티모달 비전 시스템에서 지식 보존과 신속한 적응 간의 균형을 강화한다.
- 로봇 비전 시스템에서 순차적으로 도메인/클래스가 변하는 환경에 적용
- 드론/감시 카메라에서 도메인 변화가 잦은 영상 데이터에 실시간 적응
- 의료 영상에서 라벨 확장이 필요한 시나리오에서의 지속 학습
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.