핵심 요약
게임 엔진으로 생성한 합성 데이터는 실제 환경과의 시각적 차이(Sim2real gap) 때문에 AI 모델의 실세계 성능을 저하시킨다. 이 논문은 최신 Diffusion 모델과 이미지 번역 기술을 결합하여 합성 이미지의 기하학적 구조를 개선하고 실사 데이터의 분포를 정확히 맞춤으로써 자율주행 등 시각 AI의 학습 효율을 높이는 방법을 제시한다.
왜 중요한가
게임 엔진으로 생성한 합성 데이터는 실제 환경과의 시각적 차이(Sim2real gap) 때문에 AI 모델의 실세계 성능을 저하시킨다. 이 논문은 최신 Diffusion 모델과 이미지 번역 기술을 결합하여 합성 이미지의 기하학적 구조를 개선하고 실사 데이터의 분포를 정확히 맞춤으로써 자율주행 등 시각 AI의 학습 효율을 높이는 방법을 제시한다.
핵심 기여
Diffusion과 Im2Im 번역의 하이브리드 프레임워크 제안
FLUX.2-4B Klein의 강력한 기하학적/재질 변환 능력과 REGEN의 실세계 데이터 분포 매칭 능력을 결합하여 각각의 단일 모델 사용 시보다 높은 사실성을 확보했다.
FLUX.2-4B Klein 모델의 Photorealism 강화 성능 검증
추가적인 제어 신호(Depth, Edge 등) 없이 RGB 입력만으로도 합성 이미지의 조명, 기하학적 구조, 재질을 개선할 수 있음을 입증했다.
CMMD 지표 기반의 정량적 우위 입증
인간의 판단과 일치도가 높은 CLIP Maximum Mean Discrepancy(CMMD) 지표를 사용하여 제안된 하이브리드 방식이 기존 SoTA 모델들보다 실세계 데이터 분포에 더 가깝다는 것을 확인했다.
핵심 아이디어 이해하기
게임 엔진에서 생성된 이미지는 레이트레이싱 같은 최신 기술을 사용하더라도 실제 사진과는 질감이나 조명에서 미세한 차이가 발생한다. 이를 해결하기 위해 기존에는 이미지의 픽셀 분포를 바꾸는 Image-to-Image(Im2Im) 번역 기술을 사용했으나, 이는 낮은 폴리곤으로 제작된 물체의 형태적 한계를 극복하지 못하는 문제가 있었다.
최근의 Diffusion 모델은 텍스트 프롬프트를 기반으로 이미지의 기하학적 구조와 재질을 완전히 재구성할 수 있는 능력을 갖추고 있다. 하지만 Diffusion 모델은 원본 이미지의 의미론적 정보(객체의 위치나 종류)를 무시하고 엉뚱한 이미지를 생성하는 '환각(Hallucination)' 현상이 발생하기 쉽고, 특정 실제 데이터셋의 통계적 특성을 정확히 따르지 못하는 한계가 있다.
이 논문은 먼저 Diffusion 모델을 통해 합성 이미지의 기하학적 완성도를 높인 뒤, 학습된 Im2Im 모델을 거쳐 특정 실세계 데이터셋(KITTI, Cityscapes 등)의 색감과 질감 분포를 입히는 2단계 전략을 취한다. 이를 통해 원본의 의미 정보를 보존하면서도 시각적 사실성을 극대화하여 AI 모델이 실제 환경에 더 잘 적응하도록 돕는다.
방법론
전체 프로세스는 Diffusion 기반 강화 단계와 Im2Im 분포 매칭 단계로 구성된다. 첫 번째 단계에서는 FLUX.2-4B Klein 모델을 사용하며, 원본 합성 이미지의 레이아웃을 유지하면서 실사 영화 같은 품질로 재창조하도록 설계된 전용 프롬프트를 입력값으로 사용한다.
두 번째 단계에서는 REGEN 모델을 활용한다. REGEN은 입력 이미지 x를 받아 실세계 데이터셋의 분포 P_real에 가깝도록 변환된 이미지 x'를 출력한다. 이 과정에서 REGEN은 추가적인 제어 신호 없이 RGB 이미지만으로 실시간에 가까운 추론 속도를 유지하며 시각적 특성을 전이한다.
최종적으로 Diffusion 모델이 생성한 고품질 기하학적 구조를 가진 이미지가 REGEN의 입력으로 들어가며, REGEN은 이를 특정 타겟 데이터셋(예: KITTI)의 통계적 특성에 맞춰 미세 조정한다. 이 결합 방식은 [합성 이미지 → Diffusion(구조 개선) → Im2Im(분포 최적화) → 최종 실사화 이미지] 순으로 연산이 진행되어 각 기술의 장점만을 취한다.
관련 Figure

합성 이미지가 먼저 Diffusion 모델을 거쳐 기하학적 구조가 개선된 후, Im2Im 모델을 통해 특정 실세계 데이터셋의 분포와 매칭되는 2단계 과정을 시각화한다. 각 단계가 해결하는 Sim2real 간극의 측면을 명확히 보여준다.
제안된 하이브리드 Photorealism 강화 프레임워크의 전체 워크플로우 다이어그램
주요 결과
VKITTI2 데이터셋을 KITTI 실세계 데이터셋으로 변환하는 실험에서 CMMD 점수가 낮을수록 실사와 유사함을 의미하는데, 원본 합성 이미지는 3.734였으나 제안된 하이브리드 방식(FLUX+REGEN)은 1.781을 기록하여 가장 우수한 성능을 보였다. 이는 단독 모델인 FLUX(2.488)나 REGEN(2.726)보다 월등히 낮은 수치이다.
의미론적 일관성 평가를 위해 Mask2Former를 이용한 mIoU(Mean Intersection over Union)를 측정한 결과, 합성 이미지의 52.18%보다 높은 55.94%를 기록했다. 이는 사실성 강화 과정에서 객체의 형태가 실세계 모델이 인식하기 더 좋게 정렬되었음을 시사한다.
GTA-V 데이터셋을 활용한 실험에서도 하이브리드 방식은 CMMD 3.956을 기록하여 원본(6.321) 대비 크게 개선되었으며, YOLO26m을 이용한 객체 탐지 성능(mAP@50)에서도 원본과 유사한 수준을 유지하여 Photorealism 강화가 레이블 정보를 훼손하지 않음을 증명했다.
관련 Figure

KITTI와 Cityscapes 데이터셋 환경에서 각 모델의 출력물을 비교한다. 하이브리드 방식이 원본의 레이아웃을 유지하면서도 조명과 질감 면에서 가장 실사에 가까운 결과를 생성함을 확인할 수 있다.
원본 합성 이미지와 FLUX, REGEN, 그리고 하이브리드 방식(FLUX+REGEN)의 결과물 비교 사진
기술 상세
본 연구는 FLUX.2-4B Klein이라는 경량화된 Diffusion 모델을 활용하여 소비자용 GPU(NVIDIA RTX 3090, 13GB VRAM)에서도 구동 가능하도록 설계되었다. 기존 Diffusion 기반 기법들이 Depth Map이나 Segmentation Map 같은 추가 정보를 요구했던 것과 달리, RGB 이미지와 정교한 프롬프트 엔지니어링만으로 구조적 일관성을 유지한다.
Im2Im 단계에서 사용된 REGEN 모델은 CARLA 시뮬레이터 데이터로 사전 학습된 상태에서 KITTI 및 Cityscapes 데이터셋의 특성을 반영하도록 훈련되었다. 하이브리드 접근법은 Diffusion의 강점인 'Zero-shot Photorealism'과 Im2Im의 강점인 'Target Distribution Matching' 사이의 기술적 간극을 메운다.
성능 평가 지표로 사용된 CMMD는 CLIP 임베딩 공간에서 두 이미지 집합 간의 최대 평균 편차를 계산하는 방식으로, 기존 FID(Fréchet Inception Distance)보다 인간의 시각적 품질 판단과 더 높은 상관관계를 가짐이 최신 연구를 통해 밝혀진 바 있다.
한계점
Diffusion 기반 모델의 특성상 비디오 데이터와 같은 연속적인 프레임 처리 시 시간적 일관성(Temporal Inconsistency) 문제가 발생할 수 있다. 또한 실시간 시뮬레이션 환경에 직접 통합하여 추론하기에는 연산 비용이 발생하므로, 현재는 오프라인 데이터셋 생성 단계에 적합하다.
실무 활용
자율주행, 로보틱스 등 실세계 배포를 위한 시각 AI 학습용 데이터 생성 파이프라인에 즉시 적용 가능하다. 특히 고가의 실사 데이터를 수집하기 어려운 환경에서 저사양 게임 엔진 데이터를 고품질 학습 데이터로 변환하는 데 유용하다.
- 자율주행 알고리즘 학습을 위한 가상 주행 영상의 실사화 변환
- 드론 및 무인 항공기(UAV)의 객체 탐지 성능 향상을 위한 합성 데이터 강화
- 엣지 디바이스용 경량 시각 모델 학습을 위한 고품질 데이터셋 증강
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.