World2Minecraft: 점유 기반 시뮬레이션 장면 구축

기존의 AI 시뮬레이션 환경은 수정이 불가능하거나 시각적 사실성이 떨어지는 한계가 있었다. 이 논문은 현실 세계의 사진을 마인크래프트의 블록 구조로 자동 변환하여, AI 에이전트가 자유롭게 상호작용하고 수정할 수 있는 고품질 학습 환경을 구축하는 방법을 제시한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

World2Minecraft 프레임워크 개발

3D 시맨틱 점유 예측을 활용하여 현실 세계의 장면을 편집 가능한 마인크래프트 환경으로 변환하는 엔드투엔드 파이프라인을 구축했다.

대규모 MinecraftOcc 데이터셋 구축

156개의 정교한 실내 장면에서 추출한 100,165개의 고해상도 이미지와 3D 점유 레이블을 포함하는 대규모 데이터셋을 공개하여 모델의 일반화 성능을 평가할 수 있게 했다.

MinecraftVLN 벤치마크 제안

재구성된 장면에서 시각-언어 내비게이션(VLN) 작업을 수행하기 위한 3,801개의 데이터 샘플을 구축하여 실무적인 활용 가능성을 검증했다.

자동화된 데이터 획득 파이프라인

수동 주석 없이도 마인크래프트 모드를 활용해 물리 기반 렌더링과 정밀한 레이아웃 제어가 가능한 저비용 데이터 생성 방식을 제안했다.

핵심 아이디어 이해하기

World2Minecraft의 핵심은 현실의 연속적인 공간을 마인크래프트의 이산적인 복셀(Voxel) 구조로 매핑하는 것이다. 딥러닝에서 임베딩이 고차원 정보를 벡터 공간에 배치하듯, 이 시스템은 2D 이미지에서 추출한 특징을 3D 공간의 점유 확률로 변환한다. 기존의 NeRF나 가우시안 스플래팅이 시각적 재현에만 집중해 물리적 수정이 불가능했던 것과 달리, 이 방식은 공간을 '채워짐'과 '비어있음'의 격자로 정의하여 마인크래프트 블록과 직접 연결한다.

먼저 단일 이미지에서 3D 구조를 추론하는 Monocular Predictor를 통해 각 시점의 공간 정보를 얻는다. 이후 여러 시점의 정보를 카메라 파라미터를 이용해 하나의 통합된 3D 맵으로 합치는 Volumetric Fusion 과정을 거친다. 이 과정에서 노이즈를 제거하기 위해 3D 컨볼루션을 적용하여 밀도 맵을 계산하고, 일정 임계값 이상의 밀도를 가진 지점만을 실제 물체로 인식한다.

최종적으로 추출된 물체 중심점들을 클러스터링하여 중복을 제거하고, 마인크래프트 내의 실제 가구 모델과 매칭시킨다. 결과적으로 사용자는 사진 몇 장만으로 AI 에이전트가 문을 열거나 가구를 옮길 수 있는 물리 법칙이 적용된 가상 세계를 얻게 된다.

방법론

전체 파이프라인은 다중 뷰 시맨틱 점유 예측, 볼륨 퓨전 및 필터링, 가상 세계 생성의 세 단계로 구성된다. 첫 단계에서는 입력 이미지 세트 I와 카메라 내부 파라미터 K를 입력으로 받아 단일 뷰 예측 모델 F_mono를 통해 각 뷰에 대한 3D 점유 그리드 O_mono를 생성한다.

두 번째 단계에서는 카메라 외부 파라미터 E를 사용하여 개별 점유 그리드들을 통합된 장면 표현 O_scene으로 융합한다. 이때 깨끗한 구조를 얻기 위해 3D 컨볼루션 커널 K를 융합된 그리드에 적용하여 밀도 맵 D를 계산한다. [이진 점유 그리드와 커널 K를 입력으로] → [3D 컨볼루션 연산을 수행해] → [각 복셀의 밀도 값 D(v)를 얻고] → [이 값이 임계값 τ보다 큰 위치를 후보지로 선택하여] 노이즈를 제거한다.

마지막으로 선택된 후보지들을 DBSCAN 알고리즘으로 클러스터링하여 물체의 중심점 C'을 도출한다. [후보지 좌표들을 입력으로] → [L2 노름 기반의 거리 측정 및 군집화 연산을 수행해] → [각 물체 범주별 중심점 좌표를 얻고] → [이 좌표에 마인크래프트 블록 배치 명령을 할당하여] 최종적인 편집 가능 환경을 렌더링한다.

관련 Figure

#1Diagram
현실 이미지가 점유 예측 모델을 거쳐 마인크래프트 명령어로 변환되는 과정과, 재구성된 환경에서 AI 에이전트가 지시문을 따라 이동하는 VLN 작업의 흐름을 한눈에 보여준다. 이는 논문의 핵심 기여인 현실-가상 전환 파이프라인을 설명한다.
World2Minecraft 프레임워크의 전체 구조와 현실 세계에서 마인크래프트로의 변환 및 내비게이션 과정을 보여주는 다이어그램이다.

주요 결과

실험 결과, MinecraftOcc 데이터셋은 기존 NYUv2나 OccScanNet 대비 이미지 수(10만 장 이상)와 해상도(1920x1129) 면에서 압도적인 규모를 보여주었다. 특히 이미지 품질 평가 지표인 NIQE에서 9.97을 기록하여 NYUv2(14.96)보다 더 자연스러운 시각 정보를 제공함을 입증했다.

점유 예측 성능 분석에서 기존 SOTA 모델들은 MinecraftOcc 데이터셋에서 성능이 크게 하락하는 양상을 보였는데, 이는 본 데이터셋이 모델의 일반화 능력을 테스트하는 강력한 벤치마크임을 시사한다. 반면 MinecraftOcc를 보조 학습 데이터로 사용했을 때 NYUv2 벤치마크에서 IoU가 0.43, mIoU가 0.21 상승하는 성능 향상을 확인했다.

효율성 측면에서 World2Minecraft 파이프라인을 사용하면 장면당 구축 시간이 482초에서 70.38초로 약 7배 단축되었다. 또한 시각-언어 내비게이션(VLN) 작업에서 Qwen2.5-VL 모델을 미세 조정했을 때, 재구성된 장면에서의 성공률이 크게 향상되어 구축된 환경의 실용적인 가치를 증명했다.

관련 Figure

#3Photo
실제 사진(Reality)과 재구성된 마인크래프트 환경 사이의 시각적 일관성을 증명한다. 특히 예측된 점유 맵(Prediction)이 실제 가구 배치와 얼마나 정확하게 일치하는지를 보여주어 방법론의 유효성을 뒷받침한다.
현실 세계 사진과 재구성된 마인크래프트 장면, 그리고 예측된 점유 맵을 비교한 시각적 결과물이다.

기술 상세

World2Minecraft 아키텍처는 현실의 시각적 복잡성을 마인크래프트의 격자 구조로 변환하기 위해 '형태 인식 템플릿 매칭(Shape-aware Template Matching)' 기법을 사용한다. 이는 예측된 점유 그리드 O_k와 가구 라이브러리 L의 템플릿 T_j 사이의 공간적 겹침(Intersection over Union)을 최대화하는 회전 각도 δ를 찾는 방식이다. 이를 통해 단순한 블록 나열이 아닌 의미론적으로 일관된 가구 배치가 가능해진다.

데이터 생성 단계에서는 마인크래프트 모드인 WorldEdit과 TMEO를 통합하여 1,400개 이상의 세분화된 객체 모델을 활용한다. 특히 'Viewpoint-aware Fallback Strategy'를 도입하여, 마인크래프트의 이산적인 공간 특성상 대각선 방향 뷰에서 발생하는 복셀 손실 문제를 인접 뷰의 구조 정보를 보정값 ϵ으로 보충함으로써 해결했다.

학습 과정에서는 Reinforcement Fine-Tuning(RFT)과 Supervised Fine-Tuning(SFT)을 모두 적용했다. RFT의 경우 GRPO 알고리즘을 사용하여 KL 발산 페널티를 1.0x10^-2로 설정하고 정책을 최적화했다. 이러한 정교한 학습 전략은 에이전트가 재구성된 환경 내의 미세한 장애물을 인식하고 복잡한 경로를 탐색하는 데 결정적인 역할을 한다.

한계점

현재의 재구성 품질은 점유 예측 모델의 정확도에 크게 의존하며, 자동 재구성 결과에서 부유하는 아티팩트나 표면의 미세한 구멍이 발생할 수 있어 일부 수동 보정이 필요하다는 한계가 명시되어 있다.

실무 활용

현실 세계의 실내 공간을 마인크래프트 환경으로 자동 변환하여 로봇 및 AI 에이전트의 학습용 시뮬레이터로 활용할 수 있다.

실제 집 구조를 마인크래프트로 옮겨 가사 로봇의 내비게이션 경로 학습
다양한 실내 배치를 자동 생성하여 시각-언어 모델의 지시문 이행 능력 평가
사용자가 직접 가구 배치를 수정하며 AI 에이전트의 적응력을 테스트하는 인터랙티브 환경 구축

코드 공개 여부: 공개

코드 저장소 보기

관련 Figure

#2Screenshot
에이전트의 이동 경로 시퀀스에서 'Next-View'와 'Next-Action'을 예측하기 위한 데이터가 어떻게 구성되는지 상세히 보여준다. 이는 재구성된 환경이 실제 AI 학습에 어떻게 활용되는지를 구체화한다.
MinecraftVLN 데이터셋 구축을 위한 질문-답변 쌍 생성 파이프라인 스크린샷이다.

키워드

3D Semantic Occupancy(3D 시맨틱 점유)Embodied AI(체화된 AI)Minecraft(마인크래프트)VLN(시각-언어 내비게이션)Real-to-Sim(현실-가상 전환)

World2Minecraft: 점유 기반 시뮬레이션 장면 구축

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

World2Minecraft 프레임워크 개발

3D 시맨틱 점유 예측을 활용하여 현실 세계의 장면을 편집 가능한 마인크래프트 환경으로 변환하는 엔드투엔드 파이프라인을 구축했다.

대규모 MinecraftOcc 데이터셋 구축

MinecraftVLN 벤치마크 제안

재구성된 장면에서 시각-언어 내비게이션(VLN) 작업을 수행하기 위한 3,801개의 데이터 샘플을 구축하여 실무적인 활용 가능성을 검증했다.

자동화된 데이터 획득 파이프라인

수동 주석 없이도 마인크래프트 모드를 활용해 물리 기반 렌더링과 정밀한 레이아웃 제어가 가능한 저비용 데이터 생성 방식을 제안했다.

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

현실 세계의 실내 공간을 마인크래프트 환경으로 자동 변환하여 로봇 및 AI 에이전트의 학습용 시뮬레이터로 활용할 수 있다.

실제 집 구조를 마인크래프트로 옮겨 가사 로봇의 내비게이션 경로 학습
다양한 실내 배치를 자동 생성하여 시각-언어 모델의 지시문 이행 능력 평가
사용자가 직접 가구 배치를 수정하며 AI 에이전트의 적응력을 테스트하는 인터랙티브 환경 구축

코드 공개 여부: 공개

코드 저장소 보기

관련 Figure

키워드

3D Semantic Occupancy(3D 시맨틱 점유)Embodied AI(체화된 AI)Minecraft(마인크래프트)VLN(시각-언어 내비게이션)Real-to-Sim(현실-가상 전환)

World2Minecraft: 점유 기반 시뮬레이션 장면 구축

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

World2Minecraft: 점유 기반 시뮬레이션 장면 구축

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드