핵심 요약
자율 주행 시스템이 학습하지 못한 미지의 객체를 정확히 식별하는 것은 안전을 위해 필수적이다. 이 논문은 기존 2D 기법의 한계를 넘어 3D 특징 공간에서 직접 이상치를 탐지하는 효율적인 방법론과 새로운 벤치마크 데이터셋을 제공하여 실전 자율 주행의 신뢰성을 높인다.
왜 중요한가
자율 주행 시스템이 학습하지 못한 미지의 객체를 정확히 식별하는 것은 안전을 위해 필수적이다. 이 논문은 기존 2D 기법의 한계를 넘어 3D 특징 공간에서 직접 이상치를 탐지하는 효율적인 방법론과 새로운 벤치마크 데이터셋을 제공하여 실전 자율 주행의 신뢰성을 높인다.
핵심 기여
LIDO 프레임워크 제안
특징 공간(Feature Space)에서 직접 작동하며 인라이어(Inlier) 클래스의 분포를 모델링하여 이상 샘플을 제약하는 효율적인 3D LiDAR 이상 분할 접근 방식을 도입했다.
혼합 실사-합성 데이터셋 구축
기존 데이터셋의 단순함과 도메인 격차를 해결하기 위해 실제 LiDAR 스캔에 합성 OoD 객체를 정밀하게 삽입한 nuScenes-OoD, SemanticPOSS-OoD, SemanticKITTI-OoD 데이터셋을 공개했다.
실시간 추론 성능 확보
모델 앙상블과 같은 무거운 기법 없이도 단일 모델로 100ms 미만의 추론 시간을 달성하여 실제 자율 주행 환경에 적용 가능한 효율성을 입증했다.
관련 Figure

입력 점구름에서 기존 클래스 분류와 동시에 학습되지 않은 객체(의자, 탁자 등)에 높은 이상치 점수를 부여하는 과정을 시각적으로 보여준다.
3D LiDAR 이상 분할 작업의 개요도
핵심 아이디어 이해하기
자율 주행에서 LiDAR 센서는 주변을 3D 점구름(Point Cloud)으로 인식하며, 각 점이 어떤 물체인지 분류하는 Semantic Segmentation이 핵심이다. 하지만 기존 모델은 학습 데이터에 포함된 클래스만 인식하려 하므로, 도로 위의 예상치 못한 장애물(이상치)을 엉뚱한 클래스로 오분류하는 한계가 있다.
LIDO는 이를 해결하기 위해 특징 공간에서의 임베딩(Embedding) 분포에 주목한다. 모델이 아는 물체들은 특징 공간의 특정 영역에 밀집되도록 학습시키고, 이 밀집 영역에서 벗어난 점들을 이상치로 간주하는 원리이다. 특히 '프로토타입(Prototype)' 개념을 도입하여 각 클래스의 중심점을 정의하고, 입력된 점이 이 중심점들과 얼마나 멀리 떨어져 있는지를 계산한다.
결과적으로 모델은 단순히 클래스를 분류하는 것을 넘어, 자신이 해당 점을 얼마나 확신하는지를 특징 벡터의 거리와 노름(Norm)을 통해 표현한다. 이를 통해 별도의 이상치 학습 데이터 없이도 '처음 보는 물체'를 효과적으로 걸러낼 수 있게 된다.
방법론
LIDO는 MinkowskiNet을 백본으로 사용하며 Semantic Head와 Contrastive Head라는 두 개의 병렬 구조로 구성된다. Semantic Head는 표준적인 분류 작업을 수행하면서 동시에 각 클래스의 특징을 대표하는 프로토타입(CP)을 생성한다.
Semantic Head에서는 Cross-Entropy Loss와 Lovasz Loss를 결합하여 학습하며, 추가로 Prototype-based Cosine Embedding Loss를 적용한다. 이는 각 특징 벡터 f_p와 해당 클래스의 프로토타입 CP_c 사이의 코사인 유사도를 계산하여 [1 - <CP, f> → 거리 최소화 → 특징 밀집] 과정을 거쳐 인라이어 클래스의 응집력을 높인다.
Contrastive Head는 Objectosphere Loss를 활용하여 인라이어의 특징 벡터를 좌표계의 중심에서 멀리 밀어내고 특정 반지름 r 이상의 영역에 위치시킨다. [특징 벡터의 L2 노름 계산 → r과의 차이 비교 → 인라이어는 r 이상으로, 이상치는 중심으로 유도] 연산을 통해 이상치와 인라이어를 특징 공간에서 명확히 구분한다.
최종 추론 단계에서는 Semantic Head의 소프트맥스 엔트로피와 코사인 거리 점수, 그리고 Contrastive Head에서 계산된 특징 벡터의 노름 기반 점수를 결합하여 각 점의 이상치 확률(Anomaly Score)을 산출한다.
관련 Figure

백본 네트워크에서 추출된 특징이 Semantic Head와 Contrastive Head로 나뉘어 처리되고, 최종적으로 이상치 점수로 통합되는 구조를 설명한다.
LIDO 모델의 전체 아키텍처 다이어그램
주요 결과
STU 데이터셋 테스트 결과, LIDO는 AUROC 93.67%, AP 14.99%를 기록하며 기존 SOTA 모델인 Mask4Former3D + Deep Ensemble 대비 AP 기준 9.82% 포인트의 성능 향상을 보였다. 특히 앙상블 기법을 사용하지 않고도 더 높은 정확도를 달성했다.
새롭게 제안된 nuScenes-OoD 벤치마크에서도 LIDO는 21.7M의 적은 파라미터와 38ms의 빠른 실행 시간으로 경쟁력 있는 성능을 입증했다. 이는 118.8M 파라미터와 287ms가 소요되는 앙상블 모델보다 훨씬 가볍고 빠르면서도 대등한 이상 탐지 능력을 보여준 것이다.
Ablation Study를 통해 Prototype Loss와 Contrastive Loss를 모두 사용할 때 성능이 가장 극대화됨을 확인했다. 특히 Objectosphere Loss의 반지름 r 값을 5로 설정했을 때 STU 검증셋에서 95.05%의 최고 AUROC를 달성했다.
관련 Figure

기존 Mask4Former3D 모델과 비교하여 LIDO가 실제 이상 객체를 더 정확하고 깨끗하게 분할해내는 성능 차이를 입증한다.
STU 및 SemanticKITTI-OoD 데이터셋에 대한 정성적 비교 결과
기술 상세
LIDO 아키텍처는 3D 희소 합성곱(Sparse Convolution)을 활용하는 MinkowskiNet을 기반으로 한다. 특징 공간의 차원은 C-차원 하이퍼스피어(Hypersphere)로 모델링되며, 인라이어 클래스들은 이 구면 위에서 각자의 프로토타입을 중심으로 군집화된다.
Contrastive Head에서 사용하는 Objectosphere Loss는 인라이어 샘플의 특징 벡터 노름을 최소 r 이상으로 유지하도록 강제하며, 학습 시 사용되지 않는 영역(Void/Anomaly)의 벡터는 원점 근처로 수렴하게 유도한다. 이는 추론 시 노름 크기만으로도 이상 여부를 판단할 수 있는 강력한 지표가 된다.
데이터셋 구축 시에는 Lambertian 반사 모델을 적용하여 합성 객체의 반사 강도(Intensity)를 실제 LiDAR 빔 패턴과 기하학적으로 정렬시켰다. [입사각과 거리 d 입력 → ρ·max(0, -n·r)/d² 계산 → 반사 강도 i 산출] 과정을 통해 도메인 격차를 최소화했다.
한계점
LiDAR 데이터셋 특유의 심각한 클래스 불균형(예: 자전거, 오토바이 비중 0.01% 미만)으로 인해 일부 소수 클래스가 이상치로 오분류되는 경향이 있다. 또한 원거리의 희소한 점들에 대해서는 여전히 탐지 정확도가 낮아지는 한계가 존재한다.
실무 활용
실시간성이 요구되는 자율 주행 및 로봇 인지 시스템에서 미지의 장애물을 탐지하는 데 즉시 활용 가능하다.
- 자율 주행 자동차의 도로 위 미학습 장애물(낙하물 등) 실시간 감지
- 배달 로봇의 복잡한 보도 환경 내 미지의 객체 회피 주행
- LiDAR 기반 보안 시스템의 비정상 침입 물체 식별
코드 공개 여부: 공개
코드 저장소 보기관련 Figure

램프, TV, 테이블 등 실제 도로 환경에서 이상치로 작용할 수 있는 다양한 합성 3D 모델들을 보여준다.
OoD 데이터셋 구축을 위해 선택된 ModelNet 객체 예시
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.