Utonia: 모든 포인트 클라우드를 위한 단일 인코더를 향하여

왜 중요한가

기존 3D AI 모델은 실내, 실외, 물체 등 특정 환경에 맞춰 개별적으로 학습되어야 했으나, Utonia는 이를 하나의 모델로 통합했다. 이는 다양한 센서 데이터를 가진 자율주행, 로봇, AR/VR 분야에서 데이터 효율성을 극대화하고 범용적인 3D 이해 능력을 제공할 수 있음을 의미한다.

핵심 기여

도메인 통합 3D 자기지도학습 프레임워크

실내외 장면, 물체 CAD, 비디오 추출 데이터 등 서로 다른 특성을 가진 5가지 도메인의 포인트 클라우드를 단일 인코더로 통합 학습하는 체계를 구축했다.

Causal Modality Blinding 기법

색상이나 법선 벡터(Normal) 정보가 누락된 데이터에서도 모델이 강건하게 작동하도록 입력 채널을 무작위로 마스킹하는 학습 전략을 도입했다.

Perceptual Granularity Rescale

센서마다 다른 데이터 밀도와 스케일을 인간의 시각적 해상도와 유사한 표준 단위로 재조정하여 도메인 간 기하학적 일관성을 확보했다.

RoPE 기반 위치 인코딩 최적화

Point Transformer V3 아키텍처에 RoPE(Rotary Position Embedding)를 결합하여 좌표계 변화에 민감하지 않은 범용적 공간 특징 추출을 실현했다.

핵심 아이디어 이해하기

포인트 클라우드는 3D 공간의 점 집합으로, Transformer의 Attention 메커니즘을 통해 점들 사이의 관계를 파악한다. 하지만 실외 LiDAR는 점이 드문드문하고 실내 스캔은 밀도가 높으며, 물체 CAD 모델은 크기가 작아 각 도메인마다 점들 사이의 거리와 밀도(Embedding 분포)가 완전히 달라지는 한계가 있었다.

Utonia는 이를 해결하기 위해 인식적 입도(Perceptual Granularity) 개념을 도입했다. 마치 사람이 멀리 있는 차와 가까이 있는 장난감 차를 비슷한 해상도로 인식하듯, 모든 데이터를 표준화된 스케일로 리사이징하여 Attention 연산 시 점들이 상호작용하는 물리적 범위를 일치시켰다.

또한 RoPE를 3D 좌표에 적용하여 절대적인 위치보다는 점들 사이의 상대적인 기하학적 구조에 집중하게 만들었다. 이를 통해 색상 정보가 없거나 좌표계가 바뀌어도 3D 형태의 본질적인 특징을 추출할 수 있게 되어, 단일 모델로도 다양한 환경에서 높은 성능을 낼 수 있게 되었다.

방법론

전체 아키텍처는 Point Transformer V3(PTv3)를 기반으로 하며, 자기지도학습(SSL) 방식을 사용하여 대규모 멀티 도메인 데이터셋(25만 개 장면 + 100만 개 물체)에서 사전 학습을 수행한다.

Causal Modality Blinding은 입력 채널(좌표, 색상, 법선) 중 좌표를 제외한 나머지를 무작위로 제거한다. [입력 채널 데이터 → 무작위 마스킹 연산 → 마스킹된 특징 벡터 생성] 과정을 통해 특정 모달리티에 대한 의존도를 낮추고 기하학적 구조 학습을 강제한다.

Perceptual Granularity Rescale은 각 도메인의 그리드 크기를 표준 단위로 변환한다. [원본 좌표 p → 스케일 팩터 s 곱셈 → 변환된 좌표 p' = s * p] 연산을 수행하여, 서로 다른 센서에서 수집된 데이터가 동일한 해상도 공간에서 Attention 연산을 수행하도록 보정한다.

RoPE(Rotary Position Embedding)는 변환된 좌표를 Attention의 Query와 Key에 직접 적용한다. [좌표값 → 회전 행렬 생성 → Q, K 벡터 회전 연산 → 상대적 위치가 반영된 어텐션 점수] 순서로 계산되어, 모델이 도메인별 특정 좌표계 관습을 외우는 대신 연속적인 상대 기하학을 학습하게 한다.

주요 결과

실내 세그멘테이션 벤치마크인 ScanNet에서 mIoU 81.1%, S3DIS에서 78.1%를 기록하며 기존 SOTA 모델인 Concerto를 능가했다. 특히 색상 정보가 없는 환경에서도 Concerto(36.8%) 대비 압도적인 성능(77.0%)을 보여 모달리티 누락에 대한 강건성을 입증했다.

실외 자율주행 데이터셋인 Waymo와 NuScenes에서도 각각 71.4%, 82.2%의 mIoU를 달성하여 실내외 통합 모델로서의 우수성을 증명했다. 물체 분류(ModelNet40) 및 파트 세그멘테이션(PartNetE)에서도 전문 모델 수준의 성능을 유지했다.

로봇 조작(Robotic Manipulation) 실험에서 Utonia 특징을 활용한 정책은 82.1%의 성공률을 기록하여 Sonata(74.7%)와 Concerto(80.0%)보다 높은 효율을 보였다. 또한 VLM(Vision-Language Model)과 결합했을 때 3D 시각적 접지(Visual Grounding) 및 질의응답 성능이 향상됨을 확인했다.

실무 활용

실내외 구분 없이 작동하는 범용 3D 인코더로, 다양한 센서 환경을 가진 자율주행차나 서비스 로봇의 시각 시스템에 즉시 적용 가능하다. 특히 데이터의 색상이나 밀도가 불완전한 실제 환경에서 높은 신뢰성을 제공한다.

자율주행차의 LiDAR 데이터 기반 주변 환경 인식 및 세그멘테이션
다양한 가전/가구 환경에서 작동하는 가정용 서비스 로봇의 물체 조작
AR/VR 기기에서 실시간 실내 공간 재구성 및 물체 인식
CAD 모델과 실제 스캔 데이터를 통합 관리하는 제조 공정 자동화

기술 상세

Utonia의 핵심은 도메인 간의 세 가지 불일치(입력 채널, 데이터 밀도, 인식적 입도)를 해결하는 것이다. 이를 위해 PTv3 아키텍처를 확장하여 도메인 불가지론적(Domain-agnostic) 설계를 적용했다.

RoPE는 1D 언어 모델에서 주로 쓰이던 기법을 3D 공간으로 확장한 것으로, 좌표축별로 분리 가능한(Separable) 회전 임베딩을 적용한다. 이는 Sparse Convolution 기반의 기존 방식이 가진 이산적 위치 표현의 한계를 극복하고 연속적인 기하학적 힌트를 제공한다.

학습 전략으로는 교사-학생 자가 증류(Teacher-Student Self-distillation) 방식을 채택했다. 교사 모델은 전체 뷰를 보고 학생 모델은 마스킹된 뷰를 보며 특징을 일치시키도록 학습하여, 부분적인 관측값으로부터 전체 구조를 추론하는 능력을 배양한다.

데이터 증강 측면에서는 물체 데이터에 대해 강한 SO(3) 회전 및 스케일 변화를 적용하여 중력 방향(z-axis)에 대한 편향을 제거했다. 이는 장면 단위 데이터가 가진 중력 정렬 특성과 물체 단위 데이터의 회전 불변성을 동시에 학습할 수 있게 한다.

한계점

선형 프로빙(Linear Probing)과 전체 파인튜닝(Full Fine-tuning) 사이의 성능 격차는 파트 세그멘테이션과 같은 세밀한 작업에서 여전히 존재하며, 이는 단일 선형 레이어보다 더 복잡한 태스크 헤드가 필요함을 시사한다. 또한 현재는 정적인 3D 데이터에 집중하고 있어 동적인 4D 시공간 인지 능력은 부족하다.

키워드

Point Cloud(포인트 클라우드)Self-Supervised Learning(자기지도학습)Transformer(트랜스포머)RoPE(회전 위치 임베딩)Robotics(로보틱스)3D Perception(3D 인지)