시각적 지속 학습에서 재앙적 망각을 극복하기 위한 Reinforcement Fine-Tuning

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

RFT는 SFT보다 망각에 강하나 여전히 시각적 지속 학습의 도전인 CIL/DIL에서 망각이 발생한다. RaPO는 trajectory-level drift를 보상 신호로 활용하고 Cross-Task 보상 정규화를 도입하여 태스크 간 이동에도 지식을 안정적으로 보존한다.

왜 중요한가

RFT는 SFT보다 망각에 강하나 여전히 시각적 지속 학습의 도전인 CIL/DIL에서 망각이 발생한다. RaPO는 trajectory-level drift를 보상 신호로 활용하고 Cross-Task 보상 정규화를 도입하여 태스크 간 이동에도 지식을 안정적으로 보존한다.

핵심 기여

Retention-aware Policy Optimization (RaPO)

RaPO는 Retention Reward와 CTAN으로 구성된 간단하지만 효과적인 RFT 방법으로, trajectory-level drift를 보상으로 삼아 학습 신호를 조정하고 파고들기와 보존 간의 균형을 맞춘다.

Trajectory-level drift agnosticism의 실증

동일 task reward를 갖는 서로 다른 롤아웃 간의 KL 발산 차이가 forgetting과 strong하게 상관한다는 것을 실험적으로 확인한다.

Cross-Task Advantage Normalization (CTAN)

task 경계에서 보상 분포의 스케일 변화를 EMA로 안정화해 크레딧 어택을 부드럽게 유지한다.

다양한 시각적 지속 학습 설정에서의 광범위한 평가

RaPO를 class-incremental/ domain-incremental 이미지 분류, 영상 분류, 객체 탐지에서 다중 벤치마크로 평가한다.

핵심 아이디어 이해하기

기존 GRPO의 보상 중심 학습은 같은 보상이라도 드리프트 크기가 큰 롤아웃에 대해 서로 다른 정책 업데이트를 유도한다. RaPO는 드리프트를 Dense한 보상 신호로 바꿔, 낮은 drift를 가진 롤아웃에 더 큰 가치를 부여하고, CTAN으로 task 경계의 보상 규모를 안정시켜 학습의 안정성과 지식 보존을 동시에 달성한다.

방법론

개요: 연속 태스크 T1~TN에서 각 Taskt를 만났을 때, 예전 Task의 데이터에 접근 없이 학습한다. 앵커 정책 πt−1과 현재 정책 πt를 두고, 그룹 내 롤아웃에 대해 Rtask와 Rret를 합친 Rtotal을 얻은 뒤, group-relative advantage Ai를 계산한다. 유지와 적응의 trade-off를 제어하기 위해 CTAN으로 σ̂을 업데이트하고, 이를 이용해 Ai를 정규화한다. Retention Reward D̄drift(yi)를 exp(−α D̄drift(yi))로 매핑해 Rret를 얻고, Rtotal = Rtask + λ Rret로 업데이트한다. 또한 CTAN은 Task 경계에서의 보상 분포 변화를 완만하게 만들어 학습 안정성을 높인다.

주요 결과

실험은 ImageNet-R, ImageNet-A, TinyImageNet, CUB-200에서 10/20 Task 설정으로 수행되었다. RaPO는 GRPO 대비 A에서 큰 향상을 보였고 F와 Ab, Fb 지표에서 망각을 크게 감소시켰다. 예를 들어 ImageNet-R 10 Tasks에서 RaPO의 A는 85.92%, F는 4.69%로 GRPO의 74.67%/20.02%에서 상승했고, COCO Object Detection에서 Ab는 19.31%, Fb는 1.39%로 GRPO의 14.64%/6.67% 대비 향상되었다. 또한 DIL/영상 분류/도메인 간 변환에서도 RaPO가 일관된 개선을 보였다.

기술 상세

RaPO의 Retention Reward는 Trajectory-level drift D̄drift를 기반으로 계산된다. yi 롤아웃의 s번째 토큰에 대한 log-prob 비율을 πt와 πt−1 사이에서 평균화하여 D̄drift(yi) = max( (1/mi) Σs [log πt(ys|x, y< s) − log πt−1(ys|x, y< s)], 0 ), 이 값을 α를 통해 지수적으로 매핑한 Rret(yi) = exp(−α D̄drift(yi))로 바꾼다. Rtotal(yi) = Rtask(yi) + λ Rret(yi)로 정의되며, Ai = (Rtotal(yi) − µgroup)/ (σ̂ + ϵ)로 group-relative advantage를 계산한다. CTAN은 σ̂를 업데이트하는 EMA와 함께 태스크 경계에서의 보상 스케일 변화를 완만하게 만들어 학습의 안정성을 강화한다.

실무 활용

RaPO는 비 rehearsal 기반의 시각적 continual learning에 적용 가능한 간단한 개선 방식으로, 실제 멀티모달 비전 시스템에서 지식 보존과 신속한 적응 간의 균형을 강화한다.

로봇 비전 시스템에서 순차적으로 도메인/클래스가 변하는 환경에 적용
드론/감시 카메라에서 도메인 변화가 잦은 영상 데이터에 실시간 적응
의료 영상에서 라벨 확장이 필요한 시나리오에서의 지속 학습

코드 공개 여부: 공개

코드 저장소 보기

키워드

Retention RewardCTANRaPOGRPOtrajectory driftvisual continual learningclass-incrementaldomain-incremental