왜 중요한가
기존의 3D 재구성 기술은 물체의 고유 색상과 주변 조명 효과를 완벽히 분리하지 못해 새로운 환경에 배치할 때 부자연스러운 한계가 있었습니다. ReLi3D는 다중 뷰 제약 조건을 활용해 조명과 재질을 획기적으로 분리하며, 1초 미만의 속도로 어떤 조명에서도 자연스럽게 어울리는 전문가급 3D 에셋을 생성합니다.
핵심 기여
통합 엔드투엔드 피드포워드 파이프라인
3D 기하학적 구조, 공간적으로 변화하는 PBR 재질, 환경 조명을 단일 패스로 동시에 예측하는 최초의 시스템을 구축하여 0.3초 수준의 실시간 재구성을 실현함.
다중 뷰 제약 기반의 조명 분리 아키텍처
단일 이미지에서 발생하는 재질-조명 모호성 문제를 해결하기 위해 Transformer 기반의 교차 조건화(Cross-conditioning)를 도입하여 다중 뷰 일관성을 활용한 조명 분리 성능을 극대화함.
미분 가능한 Monte Carlo MIS 렌더러 통합
Multiple Importance Sampling(MIS)이 적용된 미분 가능한 렌더러를 학습 루프에 직접 통합하여, 예측된 결과물이 물리적 광전달 법칙을 엄격히 따르도록 강제함.
혼합 도메인 학습 프로토콜
합성 PBR 데이터의 정확한 감독 학습과 실제 세계 RGB 데이터의 자기 지도 학습을 결합하여, 합성 데이터의 정밀도와 실제 환경의 일반화 능력을 동시에 확보함.
핵심 아이디어 이해하기
기존의 3D 재구성은 이미지 내의 픽셀 값이 물체의 색상(Albedo)인지 아니면 외부 조명에 의한 밝기인지를 구분하는 '얽힘(Entanglement)' 문제에 직면해 있었습니다. 이는 딥러닝 모델이 단일 시점의 이미지만으로는 그림자와 어두운 재질을 구별하기 어렵다는 근본적인 모호성에서 기인합니다. ReLi3D는 이 문제를 해결하기 위해 Transformer의 Attention 메커니즘을 사용하여 여러 각도에서 촬영된 이미지들 사이의 상관관계를 분석합니다.
핵심 원리는 동일한 지점을 서로 다른 각도에서 바라볼 때 발생하는 광학적 변화를 포착하는 것입니다. Transformer는 여러 뷰의 특징 벡터(Embedding)를 융합하며, 특정 지점이 각도에 따라 반사광이 어떻게 변하는지를 학습하여 조명 효과를 수학적으로 제거합니다. 이를 통해 물체 고유의 물리적 특성만을 추출해낼 수 있습니다.
결과적으로 ReLi3D는 단순한 형태 복사를 넘어, 빛에 반응하는 방식까지 포함된 디지털 자산을 생성합니다. 이는 기존 방식이 조명이 고정된 '죽은 모델'을 만들던 것과 달리, 어떤 가상 환경에 배치해도 실시간으로 빛과 그림자가 자연스럽게 계산되는 '살아있는 모델'을 0.3초라는 획기적인 속도로 제공함을 의미합니다.
방법론
전체 아키텍처는 공유된 Cross-conditioning Transformer를 중심으로 기하학/외관 경로와 조명 경로라는 두 개의 병렬 구조로 설계되었다. [N개의 마스크된 이미지 입력 → DINOv2 인코딩 및 카메라 파라미터 변조 → 공유 Transformer 융합 → 통합 Triplane 특징 생성] 과정을 통해 다중 뷰 정보를 하나의 3D 특징 공간으로 압축한다.
기하학 및 외관 경로는 생성된 Triplane에서 특징을 추출하여 전용 MLP 헤드를 통해 물리 기반 파라미터를 출력한다. [Triplane 특징 p 입력 → MLP 연산 → {σ(밀도), ρ(알베도), r(거칠기), m(금속성), n(법선)} 출력 → 공간 가변형 PBR 재질 정의] 방식으로 작동하여 복잡한 질감을 정밀하게 묘사한다. 메쉬 추출에는 Flexicubes를 사용하여 고품질의 기하학적 구조를 생성한다.
조명 경로는 배경 정보와 물체 표면의 반사광을 분석하여 HDR 환경 맵을 예측한다. [마스크-이미지 쌍 입력 → 전용 1D Transformer 연산 → RENI++ 잠재 코드 z 출력 → HDR 환경 맵 복원] 과정을 거친다. 특히 학습 시 일부 뷰의 배경을 무작위로 가리는 'Stochastic Background Masking'을 적용하여, 모델이 배경이 보이지 않을 때도 물체의 반사광만으로 주변 조명을 추론하도록 훈련시킨다.
최종적으로 미분 가능한 Monte Carlo 렌더러가 두 경로의 출력을 결합하여 이미지를 재합성한다. [예측된 재질 및 조명 입력 → MIS 기반 광선 추적 연산 → 합성 이미지 출력 → 원본 이미지와의 오차 계산]을 통해 손실 함수를 구성하고, 이를 역전파하여 전체 네트워크가 물리적 일관성을 유지하며 학습되도록 유도한다.
주요 결과
PBR 재질 재구성 벤치마크에서 기존 SOTA 모델들을 압도하는 성능을 보였다. Albedo 재구성에서 25.00 dB PSNR을 기록하여 SF3D(18.42 dB) 대비 약 35% 향상된 정확도를 보였으며, Roughness(22.69 dB)와 Metallic(32.73 dB) 지표에서도 가장 높은 수치를 기록했다.
재조명(Relighting) 성능 평가에서는 새로운 HDR 환경에서 렌더링했을 때 19.77 dB PSNR을 달성하여, 재질과 조명이 성공적으로 분리되었음을 입증했다. 시각적으로도 ReLi3D가 생성한 모델은 새로운 광원 아래에서 그림자와 하이라이트가 지면 및 물체 구조와 완벽하게 일치하는 결과를 보여주었다.
추론 속도는 H100 GPU 기준 평균 0.31초를 기록했다. 이는 수십 초가 소요되는 확산 모델 기반 방식보다 100배 이상 빠른 속도이며, 입력 뷰의 개수가 1개에서 16개로 증가하더라도 성능은 비약적으로 향상되면서 연산 시간 증가는 매우 미미한 수준(0.28s에서 0.32s로 증가)에 그쳐 실용성을 증명했다.
실무 활용
1초 미만의 속도로 재조명 가능한 고품질 3D 모델을 생성할 수 있어, 전자상거래 상품 뷰어, 게임 에셋 제작, AR/VR 콘텐츠 파이프라인에 즉시 도입이 가능합니다.
- 스마트폰으로 제품을 몇 장 촬영하여 실제 조명에 반응하는 3D 상품 상세 페이지 구축
- 게임 개발 과정에서 실물 객체를 촬영해 즉시 사용 가능한 PBR 에셋으로 자동 변환
- 가상 인테리어 서비스에서 실제 가구를 촬영하여 다양한 집안 조명 아래 배치해보기
- 자율주행 시뮬레이션을 위해 실제 도로상의 차량과 장애물을 디지털 트윈으로 신속하게 복제
기술 상세
아키텍처는 가변적인 입력 뷰를 처리하기 위해 'Hero View' 전략을 채택한다. 임의로 선택된 하나의 뷰를 쿼리(Query)로 설정하고 나머지 뷰들을 메모리 뱅크로 활용하여 Cross-Attention을 수행함으로써 뷰 개수에 관계없이 안정적인 특징 융합이 가능하다. 3D 표현체로는 3x40x384x384 해상도의 Triplane을 사용하며, Pixel-shuffle 업샘플링을 통해 세부 디테일을 보존한다.
조명 모델링에는 RENI++(Rotation-equivariant, scale-invariant natural illumination prior)를 도입했다. 이는 복잡한 HDR 환경을 49x3 크기의 콤팩트한 잠재 공간으로 압축하면서도 회전 불변성을 유지하여, 적은 데이터로도 정확한 광원 추론을 가능하게 한다. 또한 Multiple Importance Sampling(MIS)을 미분 가능한 렌더러에 적용하여 학습 시 그래디언트의 노이즈를 줄이고 수렴 속도를 높였다.
학습 전략으로는 점진적 전이 학습을 사용한다. 초기 단계에서는 NeRFAcc를 이용한 Volumetric Rendering으로 대략적인 형태를 잡고, 이후 Spherical Gaussian 근사를 거쳐 최종적으로 Full Monte Carlo 통합 단계로 넘어가며 재질의 정밀도를 높인다. 이러한 단계적 접근은 복잡한 물리 기반 렌더링 손실 함수가 안정적으로 최적화되도록 돕는다.
한계점
매우 밝고 국소적인 광원이 여러 개 존재하는 등 환경 조명이 RENI++ 사전 분포 범위를 크게 벗어나는 경우, 조명 분리에 실패하여 재질 맵에 조명 효과가 남는 현상이 발생할 수 있다. 또한 현재 Triplane 해상도 제약으로 인해 극도로 미세한 텍스처 표현에는 한계가 있으며, 투명한 물체의 메쉬 재구성은 지원하지 않는다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.