Lyra 2.0: 단 한 장의 사진으로 생성하는 무한한 3D 가상 세계 | AI Trends

Two Minute PapersAI/ML

Lyra 2.0: 단 한 장의 사진으로 생성하는 무한한 3D 가상 세계

NVIDIA 연구진이 개발한 Lyra 2.0은 단일 이미지를 입력받아 장기적 일관성이 유지되는 고품질 3D 가상 환경을 생성하는 기술이다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Lyra 2.0은 프레임별 3D 기하학 캐시를 활용하여 시각적 일관성을 유지하며, 이를 통해 로봇 학습이나 자율주행 시뮬레이션에 즉시 활용 가능한 고품질 3D 자산을 생성한다.

배경

기존의 AI 기반 비디오 및 3D 생성 기술은 시점이 바뀌었다가 돌아왔을 때 사물의 형태가 변하는 객체 영속성 결여 문제를 겪어왔다.

대상 독자

AI 연구자, 3D 그래픽 개발자, 로봇 시뮬레이션 엔지니어

의미 / 영향

Lyra 2.0은 로봇 공학 및 자율주행 분야에서 실제 환경 데이터를 수집하는 비용을 획기적으로 줄여줄 것이다. 사진 한 장으로 학습용 시뮬레이션 환경을 무한히 생성할 수 있게 됨에 따라 에이전트의 안전한 가상 학습 속도가 가속화될 것으로 예상된다.

챕터별 상세

00:00

객체 영속성 문제와 기존 기술의 한계

기존의 생성형 AI 모델들은 비디오 생성 시 시점이 멀어졌다가 다시 돌아오면 이전의 지형이나 사물을 기억하지 못하고 새로운 형태로 생성하는 문제를 보였다. 이는 모델이 3D 기하학적 구조를 이해하지 못하고 단순히 2D 픽셀의 나열로 데이터를 처리하기 때문에 발생한다. Google DeepMind의 Genie 3와 같은 모델들이 발전을 이루었으나 여전히 몇 분 이상의 긴 시간 동안 일관성을 유지하는 데는 어려움이 있었다.

객체 영속성(Object Permanence)은 사물이 시야에서 사라져도 여전히 존재한다는 사실을 인지하는 능력으로, AI 비디오 생성에서 가장 해결하기 어려운 과제 중 하나이다.

03:44

Lyra 2.0의 핵심 아키텍처: Diffusion Transformer

Lyra 2.0은 OpenAI의 Sora와 유사한 Diffusion Transformer(DiT) 구조를 핵심 생성 엔진으로 채택했다. 이 모델은 입력된 단일 이미지로부터 연속적인 경로를 생성하며 실내외 환경을 모두 재구성한다. 특히 NVIDIA Isaac Sim과 같은 시뮬레이션 엔진에 즉시 배포할 수 있는 3D Gaussian Splats와 메쉬(Mesh) 형태로 결과물을 출력한다.

04:18

장기적 일관성을 위한 3D 기하학 캐시 메커니즘

Lyra 2.0은 세계 전체를 한꺼번에 기억하는 대신 프레임별 3D 기하학 캐시(Per-frame 3D geometry cache)를 유지하는 방식을 사용한다. 이 캐시는 전체 해상도의 깊이 맵(Depth map)과 다운샘플링된 포인트 클라우드(Point cloud), 그리고 카메라 이동 정보를 포함한다. 새로운 프레임을 생성할 때 과거의 뷰(View) 중 현재 위치를 가장 잘 보여주는 정보를 검색하여 참조함으로써 시점이 돌아와도 동일한 장면을 재현한다.

포인트 클라우드는 3차원 공간에 흩어진 점들의 집합으로 물체의 표면 형상을 표현하는 데이터 구조이다.

06:14

절제 연구를 통한 성능 검증

연구진은 절제 연구(Ablation Study)를 통해 각 구성 요소의 기여도를 측정했다. 전체 장면을 글로벌하게 저장하는 방식은 스타일 일관성은 유지할 수 있으나 카메라 제어 능력이 현저히 떨어지는 결과를 보였다. 반면 Lyra 2.0의 제안 방식은 SSIM, LPIPS 등 주요 벤치마크 지표에서 가장 우수한 성능을 기록하며 실제 환경과 유사한 카메라 뷰를 생성함을 입증했다.

절제 연구는 모델의 특정 구성 요소를 하나씩 제거해보며 해당 요소가 전체 성능에 미치는 영향을 파악하는 실험 기법이다.

07:28

현재 기술의 한계점과 미래 전망

현재 Lyra 2.0은 움직이는 물체가 없는 정적인 장면 생성에만 국한된다는 한계가 있다. 또한 학습 데이터에 포함된 조명이나 노출의 불일치 문제를 그대로 상속받아 결과물에 노이즈가 발생할 수 있다. 그럼에도 불구하고 단일 사진으로 실내 환경까지 확장 생성하는 능력은 로봇 학습을 위한 무한한 시뮬레이션 데이터를 제공할 수 있는 잠재력을 가진다.

실무 Takeaway

프레임별 3D 기하학 캐시를 활용하면 비디오 생성 시 발생하는 객체 영속성 문제를 해결하고 장기적 일관성을 확보할 수 있다
단일 이미지에서 3D Gaussian Splats와 메쉬를 직접 추출함으로써 생성된 가상 세계를 시뮬레이션 엔진에 즉시 통합 가능하다
글로벌 장면 저장 방식보다 로컬 뷰 검색 기반의 메모리 구조가 카메라 제어 정확도 측면에서 더 효율적이다

언급된 리소스

문서Project Lyra 2.0 Project Page

DemoLyra 2.0 Hugging Face Model

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 05. 04.수집 2026. 05. 04.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.