핵심 요약
기존의 3D 데이터 정렬 방식은 새로운 환경이나 센서 데이터에 대해 다시 학습해야 하는 한계가 있었다. 이 논문은 이미 학습된 대규모 이미지 생성 모델을 활용해 3D 데이터를 이미지로 변환함으로써, 추가 학습 없이도 실내외 다양한 환경에서 정밀한 3D 정렬을 가능하게 한다.
왜 중요한가
기존의 3D 데이터 정렬 방식은 새로운 환경이나 센서 데이터에 대해 다시 학습해야 하는 한계가 있었다. 이 논문은 이미 학습된 대규모 이미지 생성 모델을 활용해 3D 데이터를 이미지로 변환함으로써, 추가 학습 없이도 실내외 다양한 환경에서 정밀한 3D 정렬을 가능하게 한다.
핵심 기여
학습이 필요 없는 제로샷 3D 등록 프레임워크
추가적인 파인튜닝이나 학습 과정 없이 사전 학습된 World Foundation Model(WFM)과 Vision Foundation Model(VFM)을 결합하여 3D 포인트 클라우드를 정렬한다.
다중 뷰 일관성을 보장하는 기하학-이미지 전송
Cosmos-Transfer와 같은 WFM을 활용하여 3D 기하학 구조를 유지하면서도 시점 간 일관성이 확보된 RGB 이미지를 생성하여 매칭의 정확도를 높인다.
Match-then-Fuse 확률적 퓨전 기법
생성된 이미지 기반의 대응점과 원본 3D 기하학 기반의 대응점을 확률적으로 결합하는 Noisy-AND 퓨전 방식을 도입하여 각 모달리티의 장점을 극대화한다.
실제 실외 LiDAR 데이터에 대한 최초의 생성적 등록 적용
이미지 정보가 없는 실제 실외 Waymo LiDAR 데이터셋에서 가상 카메라 투영을 통해 생성적 프레임워크가 성공적으로 작동함을 입증했다.
핵심 아이디어 이해하기
3D 포인트 클라우드 등록은 서로 다른 위치에서 찍은 두 3D 스캔 데이터를 하나로 합치는 과정으로, 핵심은 두 데이터 사이의 공통된 지점(대응점)을 찾는 것이다. 기존 방식은 3D 공간의 특징 벡터(Embedding)를 직접 비교하지만, 3D 데이터는 센서 종류나 밀도에 따라 특징이 크게 변해 일반화 성능이 떨어진다는 한계가 있다.
C-GenReg는 이 문제를 해결하기 위해 3D 기하학 정보를 이미 풍부하게 학습된 2D 이미지 영역으로 옮긴다. 3D 깊이 정보를 입력으로 받아 일관된 RGB 이미지를 생성하는 World Foundation Model을 앵커로 삼아, 서로 다른 시점에서도 기하학적으로 일치하는 가상의 사진을 만들어낸다. 이렇게 생성된 사진들 사이에서 이미지 매칭 모델이 정밀한 픽셀 단위 대응점을 찾으면, 이를 다시 3D 공간으로 역투영하여 정렬에 활용한다.
결과적으로 3D 데이터 자체의 불완전함을 이미지 생성 모델의 강력한 사전 지식으로 보완한다. 이는 마치 흑백 도면만 보고는 맞추기 힘든 부품들을, 모델이 상상해낸 정교한 컬러 사진으로 변환하여 비교함으로써 훨씬 더 정확하고 안정적인 정렬 결과를 얻는 것과 같다.
방법론
C-GenReg는 두 개의 병렬 브랜치와 하나의 확률적 퓨전 모듈로 구성된다. 첫 번째인 Generated RGB Branch는 입력된 3D 포인트 클라우드를 깊이 맵 시퀀스로 렌더링한 후, Cosmos-Transfer 모델을 통해 다중 뷰 일관성이 확보된 RGB 비디오를 생성한다. 이후 MASt3R와 같은 VFM을 사용하여 이미지 간의 조밀한 특징 매칭을 수행하고, 이를 원래의 깊이 정보를 이용해 3D 좌표로 복원한다.
두 번째 Geometric Branch는 원본 3D 포인트 클라우드에서 GeoTransformer와 같은 사전 학습된 추출기를 통해 기하학적 특징을 직접 추출한다. 이 브랜치는 이미지 생성 과정에서 손실될 수 있는 미세한 구조적 정보를 보존하는 역할을 한다.
마지막으로 Match-then-Fuse 단계에서는 두 브랜치에서 계산된 유사도 행렬을 확률 분포로 변환한다. [이미지/기하학 특징 유사도 입력 → Softmax 연산 → 대응 확률 출력] 과정을 거쳐 각 모달리티의 사후 확률을 구한 뒤, Noisy-AND 논리에 기반한 결합 수식을 적용한다. 이는 두 모달리티가 모두 동의하는 대응점에 더 높은 신뢰도를 부여하여 이상치(Outlier)를 효과적으로 제거한다.
관련 Figure

Generated RGB 브랜치와 Geometric 브랜치가 병렬로 작동하여 각각의 대응 확률 지도를 생성하고, 이를 확률적 퓨전 모듈에서 결합하여 최종 변환 행렬을 추정하는 과정을 도식화했다.
C-GenReg의 전체 아키텍처를 보여주는 다이어그램이다.
주요 결과
3DMatch 실내 벤치마크에서 C-GenReg는 기존의 학습 기반 SOTA 모델인 GPCR보다 우수한 성능을 보였으며, 특히 평균 RTE(Translation Error)를 약 절반 수준인 11.9cm로 줄였다. ScanNet 데이터셋을 이용한 교차 데이터셋 일반화 실험에서도 추가 학습 없이 가장 높은 등록 정확도를 기록했다.
실외 Waymo LiDAR 데이터셋 실험에서는 기존 3D 전용 모델들이 센서 특성 차이로 인해 성능이 크게 저하되는 반면, C-GenReg는 회전 오차 2.4도, 평행 이동 오차 0.6m 수준의 압도적인 제로샷 성능을 보였다. Ablation Study 결과, 범용 모델인 DINOv2보다 매칭 특화 모델인 MASt3R를 사용했을 때 오차가 2배 이상 감소하여 태스크 특화 모델의 중요성이 확인됐다.
관련 Figure

Noisy-AND 방식이 모든 재현율 구간에서 Noisy-OR보다 높은 정밀도를 유지함을 보여주며, 왜 이 방식이 최종 설계로 선택되었는지 근거를 제시한다.
Noisy-AND와 Noisy-OR 퓨전 방식의 정밀도-재현율 곡선 비교 그래프이다.
기술 상세
C-GenReg의 핵심은 3D 등록 문제를 조건부 비디오 생성 문제로 재정의한 것이다. Cosmos-Transfer를 사용할 때 소스(Source)와 타겟(Target)의 깊이 맵을 시간 축으로 연결(Temporal Concatenation)하여 입력함으로써 모델 내부의 시간적 일관성 메커니즘이 두 시점 사이의 기하학적 연결성을 학습 없이도 유지하도록 유도했다.
확률적 퓨전에서는 Noisy-AND 모델을 채택하여 p_fuse = (p_img * p_geo * (1-pi)) / (p_img * p_geo * (1-pi) + (1-p_img) * (1-p_geo) * pi) 수식을 통해 최종 대응점을 산출한다. 여기서 pi는 사전 매칭 확률을 의미한다. 이 방식은 단순한 특징 결합(Concatenation)보다 강건하며, 실험적으로 Noisy-OR 방식보다 정밀도(Precision) 측면에서 우수함이 증명됐다.
관련 Figure

단순히 이미지를 옆으로 붙여 입력할 때보다 시간 축으로 연결하여 입력했을 때 가구의 구조적 일관성이 훨씬 더 잘 유지됨을 시각적으로 증명한다.
입력 방식(수평 결합 vs 시간적 결합)에 따른 생성 이미지의 품질 비교이다.
한계점
가장 큰 한계는 실행 시간이다. World Foundation Model을 통한 비디오 생성 과정이 전체 추론 시간의 대부분(약 507초)을 차지하여 실시간 적용에는 어려움이 있다. 또한 생성 모델의 특성상 프롬프트에 따른 성능 민감도가 존재하며, 완전히 잘못된 시맨틱 프롬프트가 주어질 경우 등록 정확도가 크게 저하된다.
실무 활용
추가 학습이 필요 없는 플러그 앤 플레이 방식이므로, 다양한 센서가 혼용되는 자율주행이나 로봇 환경에서 즉시 활용 가능하다.
- LiDAR 센서만 장착된 자율주행 차량의 실시간 지도 생성 및 위치 추정
- 서로 다른 제조사의 RGB-D 카메라를 사용하는 서비스 로봇의 실내 공간 스캔
- 사전 학습 데이터가 부족한 특수 산업 현장의 3D 구조물 정렬 및 검사
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.