Group3D: 개방형 어휘 3차원 객체 탐지를 위한 MLLM 기반 시맨틱 그룹화

여러 각도에서 찍은 사진만으로 3D 공간의 물체를 정확히 찾아내는 것은 매우 어렵다. 이 논문은 거대 언어 모델(MLLM)의 지식을 활용해 비슷한 물체들을 논리적으로 묶어줌으로써, 기존 방식이 겪던 물체 겹침이나 끊김 문제를 획기적으로 해결했다.

왜 중요한가

핵심 기여

MLLM 기반 시맨틱 제약 조건 통합

인스턴스 생성 과정에 MLLM이 생성한 시맨틱 호환성 그룹을 직접 통합하여 기하학적 정보만으로는 해결하기 어려운 모호성을 해소했다.

장면 적응형 어휘 메모리 구축

여러 뷰에서 MLLM을 쿼리하여 해당 장면에 특화된 어휘집을 동적으로 구성하고, 이를 통해 개방형 어휘 탐지 성능을 극대화했다.

그룹 게이트 기반 3D 프래그먼트 병합

시맨틱 호환성과 복셀 수준의 기하학적 일관성을 동시에 만족할 때만 3D 파편을 병합하는 알고리즘을 제약 조건으로 도입했다.

핵심 아이디어 이해하기

기존의 3D 객체 탐지는 주로 점 구름(Point Cloud) 데이터에 의존하거나, 여러 장의 2D 이미지를 3D 공간으로 투영한 뒤 기하학적 근접성만으로 물체를 묶었다. 하지만 카메라 각도에 따라 물체의 일부가 가려지거나 깊이 정보가 부정확하면, 서로 다른 물체를 하나로 합치거나 한 물체를 여러 개로 쪼개는 오류가 발생한다.

Group3D는 이 문제를 해결하기 위해 '의미론적 일관성'을 필터로 사용한다. 예를 들어, 기하학적으로는 붙어 있어도 MLLM이 '의자'와 '벽'은 같은 그룹이 아니라고 판단하면 병합하지 않는다. 반면 '소파'와 '안락의자'처럼 이름은 달라도 같은 물체를 지칭할 가능성이 높은 카테고리들은 호환 그룹으로 묶어 유연하게 대응한다.

결과적으로 기하학적 정보(Voxel Overlap)와 MLLM의 언어적 지식(Semantic Compatibility)을 교집합으로 활용하여, 데이터가 불완전한 환경에서도 실제 물체의 경계를 정확하게 복원해낸다.

방법론

Scene Vocabulary Memory 구축을 위해 각 입력 뷰에서 MLLM을 쿼리하여 객체 카테고리 집합을 얻고 이를 정규화하여 장면 전체의 어휘집을 생성한다. [입력 뷰 이미지 → MLLM 텍스트 추출 → 중복 제거 및 정규화 → 장면 특화 어휘집 생성]

3D Fragment Memory 생성을 위해 SAM 3로 각 카테고리에 대한 2D 마스크를 생성하고, 이를 추정된 깊이와 포즈를 이용해 3D 공간으로 역투영한다. [2D 마스크와 깊이 값 → 카메라 행렬 연산 → 3D 좌표 변환 → 3D 프래그먼트 데이터셋]

Semantic Compatibility Grouping 단계에서는 MLLM을 통해 어휘집을 호환 가능한 그룹으로 나눈다. '의자-소파'는 허용하되 '바닥-벽'처럼 구조적으로 다른 요소는 분리한다. [어휘 리스트 → MLLM 관계 추론 → 호환 그룹 할당 → 병합 제약 조건 생성]

Group-Gated Merging은 두 프래그먼트의 카테고리가 동일 그룹에 속하고, 복셀 오버랩(IoU) 또는 포함 관계(Containment)가 임계값을 넘을 때만 병합을 수행한다. IoU 계산 시 [두 프래그먼트의 복셀 집합 A와 B를 입력으로] → [교집합의 크기를 합집합의 크기로 나누는 연산을 수행해] → [0에서 1 사이의 수치를 얻고] → [이 값이 높을수록 두 파편이 공간적으로 일치함을 의미한다.]

주요 결과

ScanNet20 벤치마크에서 Pose-free 설정 기준 mAP25 41.2%, mAP50 18.5%를 기록하며 기존 SOTA인 Zoo3D(mAP25 27.9%)를 크게 상회했다. Pose-known 설정에서는 mAP25 51.1%로 성능이 더욱 향상되었다.

ScanNet200과 ARKitScenes 등 더 복잡하고 어휘가 많은 데이터셋에서도 일관된 성능 향상을 보였다. 특히 ARKitScenes의 Pose-free 설정에서 mAP25 18.4%를 달성하여 제로샷 일반화 능력을 입증했다.

Ablation Study 결과, 시맨틱 호환성 그룹을 사용하지 않고 기하학적 정보만으로 병합했을 때 mAP25가 41.2%에서 28.2%로 급감하여 제안한 방법론의 유효성을 확인했다.

실무 활용

별도의 3D 학습 데이터나 고가의 LiDAR 장비 없이 RGB 카메라만으로 실내 공간의 물체를 정확히 인식하고 위치를 파악할 수 있다.

로봇의 실내 자율 주행 및 물체 조작을 위한 환경 지도 작성
스마트폰 카메라를 활용한 증강현실(AR) 가구 배치 및 공간 분석
기존 2D CCTV 영상을 활용한 3D 보안 모니터링 시스템

기술 상세

Group3D는 3D 지도나 포인트 클라우드가 주어지지 않은 상태에서 다중 뷰 RGB 영상만으로 인스턴스를 구성하는 상향식(Bottom-up) 아키텍처를 채택했다. 핵심은 MLLM(GPT-5.1)을 단순한 라벨러가 아닌 '병합 제약 조건 생성기'로 활용했다는 점이다.

기하학적 일관성 검사 시 IoU뿐만 아니라 Containment Ratio를 함께 사용한다. 이는 크기 차이가 큰 프래그먼트 간의 병합 시 IoU가 과소평가되는 문제를 해결하기 위함이다. [교집합 크기를 작은 프래그먼트 크기로 나누어] → [포함 정도를 계산해] → [비대칭적 포함 관계를 수치화하고] → [작은 물체가 큰 물체에 포함된 경우를 정확히 포착한다.]

최종 라벨 결정 시 Multi-view Evidence Accumulation을 수행한다. 각 인스턴스에 속한 프래그먼트들의 신뢰도를 평균내고, 해당 카테고리가 나타난 뷰의 수에 비례하는 가중치 함수를 곱해 빈번하게 관찰된 라벨에 우선순위를 둔다.

Pose-free 환경을 지원하기 위해 Depth Anything 3와 같은 사전 학습된 모델로 깊이와 포즈를 추정하며, 이를 통해 3D 재구성 노이즈에 강건한 시스템을 구축했다.

한계점

기하학적 증거가 극도로 부족하거나 MLLM이 카테고리 관계를 잘못 판단할 경우 오류가 발생할 수 있으며, 재구성 노이즈가 심한 환경에서는 기하학적 연관성 판단이 취약해질 수 있다.

키워드

3D Object Detection(3차원 객체 탐지)Open-Vocabulary(개방형 어휘)MLLM(멀티모달 대형 언어 모델)Multi-view RGB(다중 뷰 RGB)Semantic Grouping(시맨틱 그룹화)

Group3D: 개방형 어휘 3차원 객체 탐지를 위한 MLLM 기반 시맨틱 그룹화

왜 중요한가

핵심 기여

MLLM 기반 시맨틱 제약 조건 통합

인스턴스 생성 과정에 MLLM이 생성한 시맨틱 호환성 그룹을 직접 통합하여 기하학적 정보만으로는 해결하기 어려운 모호성을 해소했다.

장면 적응형 어휘 메모리 구축

여러 뷰에서 MLLM을 쿼리하여 해당 장면에 특화된 어휘집을 동적으로 구성하고, 이를 통해 개방형 어휘 탐지 성능을 극대화했다.

그룹 게이트 기반 3D 프래그먼트 병합

시맨틱 호환성과 복셀 수준의 기하학적 일관성을 동시에 만족할 때만 3D 파편을 병합하는 알고리즘을 제약 조건으로 도입했다.

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

별도의 3D 학습 데이터나 고가의 LiDAR 장비 없이 RGB 카메라만으로 실내 공간의 물체를 정확히 인식하고 위치를 파악할 수 있다.

로봇의 실내 자율 주행 및 물체 조작을 위한 환경 지도 작성
스마트폰 카메라를 활용한 증강현실(AR) 가구 배치 및 공간 분석
기존 2D CCTV 영상을 활용한 3D 보안 모니터링 시스템

기술 상세

한계점

키워드

3D Object Detection(3차원 객체 탐지)Open-Vocabulary(개방형 어휘)MLLM(멀티모달 대형 언어 모델)Multi-view RGB(다중 뷰 RGB)Semantic Grouping(시맨틱 그룹화)

Group3D: 개방형 어휘 3차원 객체 탐지를 위한 MLLM 기반 시맨틱 그룹화

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

Group3D: 개방형 어휘 3차원 객체 탐지를 위한 MLLM 기반 시맨틱 그룹화

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드