핵심 요약
기존 3D 생성 기술은 화질이 낮거나 물리적 구조가 부정확한 한계가 있었다. HY-World 2.0은 텍스트나 이미지 한 장으로 실제 게임처럼 내부를 돌아다닐 수 있는 정교한 3D 공간을 자동으로 만들어내며, 오픈소스 중 세계 최고 수준의 성능을 달성했다.
왜 중요한가
기존 3D 생성 기술은 화질이 낮거나 물리적 구조가 부정확한 한계가 있었다. HY-World 2.0은 텍스트나 이미지 한 장으로 실제 게임처럼 내부를 돌아다닐 수 있는 정교한 3D 공간을 자동으로 만들어내며, 오픈소스 중 세계 최고 수준의 성능을 달성했다.
핵심 기여
통합 멀티모달 3D 월드 모델 프레임워크
텍스트, 단일 이미지, 다중 뷰 이미지, 비디오 등 다양한 입력을 수용하여 3D Gaussian Splatting(3DGS) 기반의 탐험 가능한 3D 장면을 생성하거나 재구성하는 통합 시스템을 구축했다.
4단계 월드 생성 파이프라인
파노라마 생성(HY-Pano 2.0), 경로 계획(WorldNav), 세계 확장(WorldStereo 2.0), 세계 합성(WorldMirror 2.0)으로 이어지는 체계적인 단계를 통해 기하학적 일관성이 높은 대규모 3D 환경을 구현했다.
WorldStereo 2.0 및 WorldMirror 2.0 업그레이드
키프레임 기반 생성과 강력한 메모리 메커니즘을 도입해 비디오 생성의 일관성을 높였으며, 정규화된 위치 인코딩과 깊이-법선 결합 손실 함수를 통해 재구성 정밀도를 대폭 향상했다.
실시간 상호작용 플랫폼 WorldLens
자동 조명(IBL), 효율적인 충돌 감지, 캐릭터 지원 기능을 갖춘 3DGS 렌더링 플랫폼을 도입하여 생성된 3D 세계 내에서의 실시간 탐험과 시뮬레이션을 가능하게 했다.
핵심 아이디어 이해하기
기존의 3D 생성 모델은 단일 시점의 이미지를 3D로 바꾸는 과정에서 보이지 않는 뒷면이나 먼 공간을 추측할 때 구조가 뭉개지는 한계가 있었다. 이는 모델이 공간의 전체적인 맥락(Global Context)을 이해하지 못한 채 국소적인 픽셀 정보에만 의존하기 때문이다.
HY-World 2.0은 이 문제를 해결하기 위해 먼저 360도 파노라마 이미지를 생성하여 공간의 전체 구조를 확립한다. 이후 WorldNav라는 알고리즘이 마치 사람이 방을 둘러보듯 최적의 이동 경로를 설계하고, 각 지점에서 보일 법한 장면들을 WorldStereo 2.0이 일관성 있게 그려낸다. 이때 '기하학적 메모리'를 사용하여 이전에 그렸던 장면과 새로 그릴 장면이 입체적으로 어긋나지 않도록 고정한다.
최종적으로 이렇게 모인 여러 장의 사진들을 WorldMirror 2.0이 하나의 입체 덩어리(3DGS)로 합친다. 결과적으로 사용자는 단순히 사진 한 장을 보는 것이 아니라, 그 사진 속 세상으로 들어가 계단을 오르거나 장애물을 피하며 자유롭게 돌아다닐 수 있는 완성된 3D 공간을 얻게 된다.
관련 Figure

MMDiT 블록을 통한 텍스트/이미지 인코딩과 파노라마의 연속성을 보장하는 Circle Padding 및 Pixel Blending 기술의 작동 원리를 설명한다.
HY-Pano 2.0의 파노라마 생성 메커니즘 상세도
방법론
전체 시스템은 4단계 오프라인 생성 파이프라인으로 구성된다. 1단계인 HY-Pano 2.0은 Multi-Modal Diffusion Transformer(MMDiT)를 사용하여 입력된 텍스트나 이미지로부터 360도 파노라마를 생성한다. 이때 원통형 패딩(Circle Padding)과 픽셀 블렌딩 기술을 적용하여 파노라마의 좌우 경계가 끊김 없이 이어지도록 처리한다.
2단계 WorldNav는 생성된 파노라마를 분석하여 탐험 가능한 경로를 설계한다. Qwen3-VL로 주요 지형지물을 파악하고 SAM3로 마스크를 생성한 뒤, Recast Navigation을 이용해 NavMesh를 구축한다. [파노라마 입력 → 시맨틱 분석 및 지형 추출 → NavMesh 생성 → 충돌 없는 5가지 모드의 카메라 경로 출력] 과정을 거쳐 데이터 수집 경로를 확보한다.
3단계 WorldStereo 2.0은 설계된 경로를 따라 새로운 시점의 이미지들을 생성한다. 표준 Video-VAE 대신 공간 정보 보존에 유리한 Keyframe-VAE를 사용하며, Global-Geometric Memory(GGM)와 개선된 Spatial-Stereo Memory(SSM++)를 도입했다. [이전 프레임 정보와 카메라 좌표 입력 → 메모리 뱅크에서 관련 데이터 추출 → 가이드된 비디오 확산 모델 연산 → 시점 일관성이 유지된 고화질 키프레임 출력] 방식으로 작동한다.
4단계 WorldComposition은 수집된 모든 시각 정보를 WorldMirror 2.0을 통해 3DGS로 통합한다. WorldMirror 2.0은 정규화된 위치 인코딩(Normalized RoPE)을 사용하여 학습 시와 다른 해상도에서도 안정적으로 작동하며, 깊이-법선 결합 손실(Ld2n)을 통해 기하학적 정확도를 높인다. [다중 뷰 이미지 입력 → Transformer 백본 연산 → 3D 포인트 맵 및 Gaussian 속성 출력 → 최종 3D 장면 완성] 과정을 수행한다.
관련 Figure

파노라마 생성부터 3DGS 구성까지의 흐름을 보여준다. 각 단계에서 사용되는 핵심 모델(HY-Pano 2.0, WorldNav 등)과 데이터의 변화 과정을 한눈에 파악할 수 있다.
HY-World 2.0의 전체 4단계 아키텍처 다이어그램

일반 경로, 주변 탐색, 재구성 중심, 방랑, 공중 경로 등 다양한 모드를 통해 공간을 빈틈없이 스캔하는 전략을 보여준다.
WorldNav에서 계획된 5가지 카메라 경로 모드 시각화
주요 결과
HY-Pano 2.0은 텍스트 및 이미지 기반 파노라마 생성 벤치마크에서 CLIP-T 0.258, Q-Align Qual 4.103 등을 기록하며 기존 HY-World 1.0 및 타 모델들을 압도하는 성능을 보였다. 특히 레이아웃의 일관성과 세부 묘사에서 높은 점수를 받았다.
WorldStereo 2.0은 카메라 제어 능력 평가에서 RotErr 0.492, TransErr 0.968로 가장 낮은 오차를 기록했으며, 사용자 선호도 조사에서도 64.39%의 압도적인 지지를 얻었다. 이는 키프레임 기반 생성과 메모리 메커니즘이 시각적 품질과 물리적 정확도를 동시에 잡았음을 증명한다.
전체 파이프라인의 효율성 측면에서, NVIDIA H20 GPU를 사용할 때 단일 3D 세계 생성에 총 712초(약 11.8분)가 소요되는 것으로 나타났다. 이는 상용 폐쇄형 모델인 Marble과 대등한 품질을 유지하면서도 오픈소스 환경에서 실용적인 속도로 구현 가능함을 보여준다.
기술 상세
HY-World 2.0의 핵심은 '생성(Generation)'과 '재구성(Reconstruction)'의 유기적 결합이다. WorldMirror 2.0은 Any-Modal Tokenization 아키텍처를 채택하여 이미지, 포즈, 깊이 맵 등 다양한 입력을 토큰화하여 처리한다. 특히 고해상도 추론 시 성능이 저하되는 문제를 해결하기 위해 절대 좌표 대신 [-1, 1] 범위로 매핑하는 Normalized RoPE를 도입하여 해상도 외삽(Extrapolation) 문제를 보간(Interpolation) 문제로 전환했다.
WorldStereo 2.0의 학습 전략은 3단계로 나뉜다. 먼저 카메라 제어를 위한 도메인 적응 학습을 진행하고, 이어 GGM과 SSM++를 통한 메모리 기반 일관성 학습을 수행하며, 마지막으로 DMD(Distribution Matching Distillation)를 이용해 추론 속도를 4단계(4-step) 수준으로 가속하는 증류 과정을 거친다.
3DGS 최적화 단계에서는 MaskGaussian 기법을 통합하여 하늘 영역과 같이 깊이 정보가 불확실한 곳에서 발생하는 부유물(Floater) 현상을 억제했다. 또한 Gumbel-Softmax를 이용한 확률적 마스킹을 통해 불필요한 가우시안을 제거함으로써 렌더링 효율성을 높이고 메모리 사용량을 최적화했다.
한계점
논문은 단일 시점 이미지로부터 생성할 때 여전히 높은 불확실성이 존재하며, 매우 복잡하거나 동적인 물체가 포함된 장면에서는 기하학적 일관성이 완벽하지 않을 수 있음을 언급했다. 또한 실시간 탐험을 위해 최적화되었으나, 생성 과정 자체에는 여전히 고성능 GPU 자원이 필요하다는 점이 한계로 지적됐다.
실무 활용
게임 개발, 로봇 시뮬레이션, 가상 현실(VR) 콘텐츠 제작 등 고정밀 3D 환경이 필요한 분야에 즉시 적용 가능하다. 특히 텍스트만으로 복잡한 3D 장면을 생성할 수 있어 콘텐츠 제작 비용을 획기적으로 낮출 수 있다.
- 게임 개발: 텍스트 프롬프트를 통한 레벨 디자인 및 배경 에셋 자동 생성
- 로봇 학습: 생성된 3D 가상 세계 내에서 물리 엔진과 연동한 로봇 네비게이션 훈련
- 디지털 트윈: 사진 몇 장으로 실제 실내 공간을 탐험 가능한 3D 모델로 복제
- 메타버스: 사용자 맞춤형 가상 공간의 실시간 생성 및 상호작용
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.