RAD-2: 생성자-판별자 프레임워크에서의 강화학습 확장

기존의 확산 모델 기반 자율주행 플래너는 모방 학습만으로는 폐쇄 루프 환경에서의 불안정성과 피드백 부족 문제를 겪었습니다. RAD-2는 생성자와 판별자를 분리하여 고차원의 궤적 최적화 문제를 저차원의 보상 신호와 연결함으로써 학습 안정성을 획기적으로 높이고 실제 주행 안전성을 크게 개선했습니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

RAD-2 생성자-판별자 프레임워크

확산 모델 기반의 생성자가 다양한 후보 궤적을 생성하고, 강화학습으로 최적화된 판별자가 장기적인 주행 품질에 따라 이를 재정렬하는 분리형 설계를 통해 고차원 궤적 공간의 최적화 불안정성을 해결했다.

TC-GRPO 알고리즘 도입

시간적 일관성을 활용하여 보상 신호의 노이즈를 제거하고 정책 그래디언트를 안정화하는 Temporally Consistent Group Relative Policy Optimization을 제안하여 강화학습의 신용 할당 문제를 완화했다.

온-정책 생성자 최적화(OGO)

폐쇄 루프 피드백을 구조화된 종방향 최적화 신호로 변환하여 생성자의 분포를 고보상 궤적 매니폴드로 점진적으로 이동시키는 최적화 기법을 개발했다.

BEV-Warp 시뮬레이션 환경

이미지 렌더링 없이 Bird's-Eye View 특징 공간에서 직접 공간 워핑을 수행하여 대규모 강화학습 학습을 지원하는 고효율, 고처리량 폐쇄 루프 시뮬레이터를 구축했다.

핵심 아이디어 이해하기

자율주행에서 확산 모델(Diffusion Model)은 복잡하고 다양한 미래 경로를 생성하는 데 탁월하지만, 단순히 인간의 주행을 흉내 내는 모방 학습(Imitation Learning)만으로는 예상치 못한 상황에서 스스로를 교정하는 능력이 부족하다. 이를 해결하기 위해 강화학습(Reinforcement Learning)을 결합하려 하면, 수만 개의 좌표로 이루어진 고차원 궤적 데이터에 단 하나의 숫자(보상)를 직접 대응시켜 학습시켜야 하므로 학습이 매우 불안정해지는 문제가 발생한다.

RAD-2는 이 문제를 해결하기 위해 '생성'과 '평가'를 철저히 분리한다. 먼저 확산 모델 생성자는 가능한 여러 경로 후보를 뽑아내고, 강화학습으로 훈련된 판별자는 이 후보들 중 어떤 것이 안전하고 효율적인지 점수(Score)를 매긴다. 이는 복잡한 궤적 전체를 직접 수정하는 대신, 판별자가 내리는 저차원의 점수 체계를 통해 간접적으로 최적의 경로를 선택하게 함으로써 학습의 난이도를 낮추는 원리이다.

결과적으로 시스템은 단순히 과거 데이터를 복제하는 수준을 넘어, 시뮬레이션 환경에서의 반복적인 시행착오를 통해 더 안전한 경로를 스스로 찾아낼 수 있게 된다. 특히 시간적 일관성을 유지하는 샘플링 기법을 통해 주행 의도가 매 순간 급격히 변하는 현상을 방지하여 실제 차량처럼 부드럽고 일관된 주행을 가능하게 한다.

관련 Figure

#2Diagram
RAD-2가 확산 모델의 생성 능력과 강화학습 판별자의 평가 능력을 폐쇄 루프 시뮬레이션 내에서 어떻게 결합하는지 시각화한다. 이를 통해 단순 모방 학습의 한계를 어떻게 극복하는지 명확히 제시한다.
기존의 어휘 기반, 확산 기반 플래닝 패러다임과 RAD-2의 생성자-판별자 시너지 구조를 비교한 그림이다.

방법론

RAD-2는 확산 모델 기반 생성자와 트랜스포머 기반 판별자로 구성된 통합 프레임워크를 사용한다. 생성자는 현재의 BEV 특징과 내비게이션 입력을 조건으로 다수의 후보 궤적을 생성하며, 판별자는 각 궤적과 주변 환경의 상호작용을 분석하여 0에서 1 사이의 점수를 부여한다. 이 과정에서 생성자와 판별자는 서로의 성능을 끌어올리는 순환 구조로 공동 최적화된다.

강화학습 안정화를 위해 TC-GRPO(Temporally Consistent Group Relative Policy Optimization)를 적용한다. 동일한 상태에서 생성된 궤적 그룹 내에서 상대적인 보상을 계산하는 GRPO 구조에 시간적 일관성 제약을 추가했다. 중요도 샘플링 비율 ρ = D_phi(tau|o) / D_phi_old(tau|o) [현재 판별자 확률 → 나눗셈 연산 → 이전 판별자 확률 대비 변화량]를 계산하고, 이를 Advantage 신호와 곱하여 판별자의 가중치를 갱신함으로써 특정 궤적 가설이 일정 시간 동안 유지되도록 유도한다.

생성자 최적화를 위해서는 OGO(On-policy Generator Optimization)를 수행한다. 시뮬레이션 중 발생한 충돌이나 지연 피드백을 바탕으로 기존 궤적의 가속도 프로필을 수정하여 최적화된 궤적 tau_opt를 생성한다. 이후 생성된 궤적과 최적화된 궤적 사이의 평균 제곱 오차(MSE) Loss = E[||tau_hat - tau_opt||^2] [예측 궤적과 목표 궤적 차이 → 제곱 연산 → 오차 값]를 최소화하는 방향으로 확산 모델을 미세 조정하여 고보상 영역으로 분포를 이동시킨다.

관련 Figure

#1Diagram
고차원 궤적 공간을 저차원 점수와 종방향 성분으로 투영하여 학습을 안정화하는 원리를 보여준다. 또한 기존 게임 엔진이나 재구성 기반 시뮬레이터의 한계를 극복하는 BEV-Warp의 효율성을 강조한다.
RAD-2의 강화학습 최적화 안정화 전략과 BEV-Warp 시뮬레이터의 장점을 설명하는 다이어그램이다.

주요 결과

BEV-Warp 시뮬레이션 환경에서 RAD-2는 강력한 확산 모델 기반 플래너인 ResAD 대비 충돌률(Collision Rate)을 0.533에서 0.234로 56% 감소시켰다. 또한 주행 효율성을 나타내는 EP-Mean 지표에서도 0.988을 기록하여 기존 모델들을 압도하는 성능을 보였다. 특히 안전 중심 시나리오와 효율 중심 시나리오 모두에서 균형 잡힌 성능 향상을 입증했다.

광학적 사실성이 높은 3DGS(3D Gaussian Splatting) 벤치마크에서도 RAD-2는 0.250의 충돌률과 0.723의 Safety@1s(1초 내 충돌 위험이 없는 비율)를 달성하며 모방 학습 및 강화학습 베이스라인 모델들보다 우수한 안전 마진을 확보했음을 보여주었다. 실제 차량 배포 테스트에서도 복잡한 도심 교통 상황에서 부드러운 차선 변경과 선제적인 감속을 통해 주행 안정성을 증명했다.

관련 Figure

#8Chart
판별자만 최적화하거나 순차적으로 학습하는 방식보다 생성자와 판별자를 동시에 최적화하는 Joint Optimization이 가장 높은 성능과 빠른 수렴 속도를 보임을 입증한다.
다양한 학습 전략에 따른 성능 향상 곡선을 비교한 그래프이다.

기술 상세

RAD-2의 핵심 아키텍처는 DiT(Diffusion Transformer) 기반 생성자와 트랜스포머 인코더 기반 판별자의 결합이다. 판별자는 궤적 포인트들을 MLP로 임베딩한 후 [CLS] 토큰을 포함한 트랜스포머를 통과시켜 궤적 쿼리 Q_tau를 생성한다. 이를 정적/동적 장애물 정보와 교차 어텐션(Cross-Attention)시켜 최종 점수를 산출한다.

학습 파이프라인은 3단계로 구성된다. 1단계에서는 대규모 실제 주행 데이터(50,000시간)로 생성자를 사전 학습한다. 2단계에서는 BEV-Warp 환경에서 궤적 재사용 메커니즘을 적용한 롤아웃을 수집한다. 3단계에서는 수집된 데이터를 FIFO 리플레이 버퍼에 저장하고, 판별자는 TC-GRPO로, 생성자는 OGO를 통한 MSE 손실로 교차 최적화한다.

BEV-Warp 시뮬레이터는 공간적 등변성(Spatial Equivariance)을 활용한다. 차량의 이동에 따른 상대적 포즈 변화를 워프 행렬 M_t = (P_t+1)^-1 * P_ref_t+1 [다음 시뮬레이션 포즈 → 역행렬 연산 후 참조 포즈와 곱셈 → 변환 행렬]로 계산하고, 이를 기존 BEV 특징 맵에 적용하여 새로운 시점의 특징을 생성한다. 이는 무거운 이미지 렌더링 과정을 생략하면서도 물리적으로 일관된 피드백을 제공한다.

관련 Figure

#4Diagram
모방 학습 데이터와 시뮬레이션 롤아웃 데이터가 어떻게 순환하며 모델을 개선하는지 설명한다. 특히 보상 신호가 판별자와 생성자 각각에 어떻게 전달되는지 구조적으로 나타낸다.
사전 학습, 폐쇄 루프 롤아웃, 판별자 및 생성자 최적화로 이어지는 RAD-2의 전체 학습 파이프라인을 보여준다.

#7Diagram
안전 시나리오와 효율 시나리오의 균형을 맞추는 데이터 구성 방식과 판별자/생성자의 비대칭적 최적화 빈도(8:1)를 보여준다. 이는 지속적인 공동 적응을 보장하는 핵심 메커니즘이다.
학습 과정에서 사용되는 리플레이 버퍼 관리 및 폐쇄 루프 최적화 워크플로우를 나타낸다.

한계점

BEV-Warp 시뮬레이션의 효율성은 BEV 중심의 인지 구조에 의존하므로, 명시적인 공간 그리드 구조가 없는 원본 카메라 픽셀 기반 아키텍처에는 직접 적용하기 어렵다. 또한 현재의 특징 레벨 워핑은 생성형 월드 모델(Generative World Models)에 비해 시각적 사실성이 떨어질 수 있으며, 향후 더 유연한 생성형 시뮬레이터와의 통합이 필요하다.

실무 활용

RAD-2는 고효율 시뮬레이터와 안정적인 강화학습 프레임워크를 결합하여 실제 자율주행 시스템의 안전성을 높이는 데 즉시 활용 가능하다.

복잡한 도심 교차로에서의 안전한 경로 계획 및 충돌 회피
고속도로 주행 시 주변 차량 흐름에 맞춘 효율적인 차선 변경 결정
시뮬레이션 데이터를 활용한 자율주행 모델의 폐쇄 루프 강화학습 훈련 파이프라인 구축

코드 공개 여부: 공개

코드 저장소 보기

키워드

Diffusion Model(확산 모델)Reinforcement Learning(강화학습)Autonomous Driving(자율주행)Closed-loop Planning(폐쇄 루프 플래닝)BEV(조감도)Policy Optimization(정책 최적화)

RAD-2: 생성자-판별자 프레임워크에서의 강화학습 확장

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

RAD-2 생성자-판별자 프레임워크

TC-GRPO 알고리즘 도입

온-정책 생성자 최적화(OGO)

BEV-Warp 시뮬레이션 환경

핵심 아이디어 이해하기

관련 Figure

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

RAD-2는 고효율 시뮬레이터와 안정적인 강화학습 프레임워크를 결합하여 실제 자율주행 시스템의 안전성을 높이는 데 즉시 활용 가능하다.

복잡한 도심 교차로에서의 안전한 경로 계획 및 충돌 회피
고속도로 주행 시 주변 차량 흐름에 맞춘 효율적인 차선 변경 결정
시뮬레이션 데이터를 활용한 자율주행 모델의 폐쇄 루프 강화학습 훈련 파이프라인 구축

코드 공개 여부: 공개

코드 저장소 보기

키워드

Diffusion Model(확산 모델)Reinforcement Learning(강화학습)Autonomous Driving(자율주행)Closed-loop Planning(폐쇄 루프 플래닝)BEV(조감도)Policy Optimization(정책 최적화)

RAD-2: 생성자-판별자 프레임워크에서의 강화학습 확장

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

RAD-2: 생성자-판별자 프레임워크에서의 강화학습 확장

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드