핵심 요약
기존의 자기 진화형 AI 모델들은 정답을 모를 때 여러 모델의 의견을 모으는 '다수결' 방식에 의존하여 오류가 반복되는 문제가 있었습니다. 이 논문은 3D 공간의 물리적 법칙을 활용해 정답을 수학적으로 계산해내는 DGE 환경을 구축함으로써, 사람의 개입이나 모델 간 합의 없이도 AI가 스스로 학습하고 진화할 수 있는 새로운 경로를 제시합니다.
왜 중요한가
기존의 자기 진화형 AI 모델들은 정답을 모를 때 여러 모델의 의견을 모으는 '다수결' 방식에 의존하여 오류가 반복되는 문제가 있었습니다. 이 논문은 3D 공간의 물리적 법칙을 활용해 정답을 수학적으로 계산해내는 DGE 환경을 구축함으로써, 사람의 개입이나 모델 간 합의 없이도 AI가 스스로 학습하고 진화할 수 있는 새로운 경로를 제시합니다.
핵심 기여
결정론적 기하학 환경(DGE) 구축
3D 포인트 클라우드와 카메라 포즈 데이터를 기반으로 16가지 공간 추론 작업에 대한 정답을 수학적으로 계산하는 시스템을 설계했다. 이를 통해 모델의 추측이 아닌 물리적 사실에 기반한 '제로 노이즈' 피드백을 제공한다.
질문자와 해결사 역할의 공동 진화 메커니즘
단일 VLM이 질문자(Questioner)와 해결사(Solver) 역할을 번갈아 수행하며 상호 보완적으로 학습하는 구조를 도입했다. 질문자는 유효한 공간 문제를 생성하고, 해결사는 DGE가 검증한 정답을 맞히며 공간 이해도를 높인다.
작업 적응형 스케줄러를 통한 자동 커리큘럼
모델의 과거 정확도를 분석하여 취약한 작업 카테고리에 학습 자원을 집중 배치하는 스케줄러를 구현했다. 수동 설계 없이도 모델의 능력치 변화에 맞춰 학습 난이도가 조절되는 동적 커리큘럼을 실현했다.
핵심 아이디어 이해하기
딥러닝 모델이 스스로 성능을 높이려면 정답(Ground Truth)이 포함된 데이터가 필요하지만, 3D 공간 추론 데이터는 사람이 일일이 라벨링하기에 비용이 너무 많이 든다. 기존에는 모델 여러 개를 돌려 가장 많이 나온 답을 정답으로 간주하는 방식을 썼으나, 이는 모델이 가진 원래의 오류를 정답으로 착각해 학습하는 '오류 강화'의 위험이 있었다.
SpatialEvo는 3D 공간의 정답은 물리 법칙과 기하학적 계산으로 명확히 도출될 수 있다는 점에 착안했다. 예를 들어 두 물체 사이의 거리는 포인트 클라우드 데이터에서 최단 거리를 계산하면 모델의 판단 없이도 정확한 수치가 나온다. 이를 위해 DGE라는 '기하학적 정답 생성기'를 만들어 모델이 내놓은 답이 물리적으로 맞는지 틀린지 즉각적이고 정확하게 알려주는 환경을 조성했다.
이러한 환경에서 모델은 스스로 문제를 내고 스스로 답을 맞히는 과정을 반복한다. 이때 GRPO(Group Relative Policy Optimization) 알고리즘을 사용하여 여러 후보 답변 중 물리적으로 더 타당한 답변에 더 높은 보상을 주는 방식으로 가중치를 업데이트한다. 결과적으로 모델은 사람의 도움 없이도 3D 공간의 거리, 방향, 크기 등을 이해하는 능력을 비약적으로 향상시킨다.
방법론
SpatialEvo 프레임워크는 크게 결정론적 기하학 환경(DGE)과 공간 접지 정책 공동 진화(Spatial-Grounded Policy Co-Evolution)로 구성된다. DGE는 3D 장면 데이터를 입력받아 16가지 공간 추론 규칙에 따라 질문의 유효성을 검사하고 정답을 생성한다. [3D 포인트 클라우드 및 카메라 포즈 입력] → [기하학적 연산(좌표 변환, 바운딩 박스 피팅 등) 수행] → [수치적 정답 도출] → [모델 학습을 위한 보상 신호로 활용] 순으로 작동한다.
학습 과정에서는 단일 VLM이 질문자와 해결사 역할을 동시에 수행한다. 질문자는 전체 장면 레이아웃을 보고 물리적으로 타당한 질문을 생성하며, 해결사는 DGE가 제공하는 엄격한 제약 조건 하에서 정밀한 기하학적 추론을 수행한다. [질문 생성] → [DGE의 유효성 검사 및 정답 생성] → [해결사의 답변 생성] → [DGE 정답과의 비교를 통한 보상 계산] 과정을 거친다.
보상 설계는 형식 준수(fmt), 기하학적 유효성(valid), 시각적 관찰 품질(obs)을 결합하여 구성된다. 특히 해결사 보상에서는 정답 정확도(acc)뿐만 아니라, 질문이 유효하지 않을 경우 그 이유를 논리적으로 설명하는 능력(explain)에도 보상을 주어 모델이 공간 규칙 자체를 내면화하도록 유도한다. [예측값과 정답 비교] → [상대 오차 기반 점수 계산] → [보상 합산] → [정책 경사 업데이트]를 통해 모델을 최적화한다.
주요 결과
Qwen2.5-VL-3B 및 7B 모델을 기반으로 실험한 결과, SpatialEvo는 9개의 공간 추론 및 시각 이해 벤치마크에서 가장 높은 평균 점수를 기록했다. 특히 VSI-Bench에서 7B 모델 기준 46.1점을 기록하며, 기존의 정적 데이터 튜닝 방식인 SpatialLadder(45.4점)를 능가했다. 이는 모델이 학습 과정에서 자신의 약점을 스스로 찾아내어 보완하는 능력이 뛰어남을 입증한다.
Ablation study를 통해 DGE의 역할을 검증한 결과, DGE의 결정론적 정답 대신 기존의 다수결 방식(Majority-vote)을 사용했을 때 성능이 5.1점 하락하여 가장 큰 폭의 저하를 보였다. 또한, 적응형 스케줄러를 제거했을 때도 성능이 하락하여, 모델의 약점에 집중하는 동적 학습 전략이 유효함을 확인했다.
일반적인 시각 이해 능력을 측정하는 MMStar와 RealWorldQA에서도 기존 성능을 유지하거나 상회하는 결과를 보여, 공간 지능에 특화된 학습이 모델의 전반적인 지능을 저하시키지 않음을 증명했다. 특히 3B 모델 규모에서도 효율적인 학습이 가능함을 보여주어 자원 효율성을 입증했다.
관련 Figure

학습 초기에는 질문의 유효성(Validity)과 형식(Format) 보상이 급격히 상승하며 모델이 규칙을 빠르게 습득함을 보여준다. 이후 시각적 관찰 품질(Observation) 보상이 완만하게 상승하는 것은 모델이 단순한 질문을 넘어 장면의 맥락을 더 깊이 이해하며 질문을 생성하게 됨을 의미한다.
학습 단계에 따른 질문자(Questioner) 보상의 변화를 나타낸 그래프이다.
기술 상세
SpatialEvo의 아키텍처는 단일 VLM 파라미터를 공유하는 질문자-해결사 구조를 채택하여, 해결사가 습득한 기하학적 지식이 질문자의 시각적 인지 능력 향상으로 전이되도록 설계되었다. 학습 알고리즘으로는 GRPO를 사용하며, 이는 별도의 가치 모델(Value Model) 없이 그룹 내 상대적 보상을 통해 정책을 최적화하므로 연산 효율성이 높다.
DGE는 16가지 작업을 세 가지 관찰 단위(장면 전체, 단일 이미지, 이미지 쌍)로 구분하여 처리한다. 각 작업은 전제 조건 일치성, 추론 가능성, 기하학적 퇴화 필터링이라는 세 가지 차원의 검증 규칙을 통과해야 한다. 예를 들어 객체 크기 추정 작업은 해당 객체의 포인트 클라우드 밀도가 일정 수준 이상이어야 유효한 질문으로 인정된다.
구현 측면에서 DGE는 경량 LLM을 사용해 자연어 질문에서 구조화된 엔티티(프레임 인덱스, 객체 카테고리 등)를 추출한 뒤, 이를 기하학적 연산 라이브러리와 연결한다. 학습 데이터로는 ScanNet, ScanNet++, ARKitScenes에서 추출한 약 4,000개의 3D 장면을 활용했으며, 온라인 강화학습을 통해 약 20,000개의 고품질 질문-답변 쌍을 생성하며 모델을 고도화했다.
한계점
SpatialEvo는 고품질의 3D 자산(포인트 클라우드, 보정된 카메라 포즈 등)이 완비된 환경에서만 작동 가능하다는 한계가 있습니다. 따라서 정적인 실내 환경을 넘어선 동적인 실외 환경이나 데이터가 부족한 장면으로의 확장이 어렵습니다. 또한, DGE의 질문 파싱 단계에서 언어 모델의 추출 오류가 발생할 경우 기하학적 검증 단계로 노이즈가 전이될 가능성이 존재합니다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.