LychSim: 비전 연구를 위한 제어 가능하고 인터랙티브한 시뮬레이션 프레임워크

Unreal Engine 5 기반의 고충실도 시뮬레이션을 연구용으로 쉽게 다룰 수 있게 하여, 2D/3D ground truth를 풍부하게 제공하고, OOD 평가 및 폐쇄 루프 학습의 가능성을 확장한다. Python API로 엔진 복잡성을 추상화하고, MCP를 통해 LLM이 시뮬레이션을 직접 제어하며 다중 카메라 뷰의 병렬 렌더링을 지원한다. 이로써 synthetic data 엔진, RL 기반 적대적 검사, 그리고 언어 주도된 3D 씬 레이아웃 생성이 실현 가능해진다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

왜 중요한가

핵심 기여

Unified Python API for UE5 asset manipulation

StaticMesh/SkeletalMesh/Blueprint 등 엔진 레벨 표현 차이를 추상화한 한 층의 Python API를 제공하여, 연구자가 복잡한 UE5/C++ 지식 없이도 씬에 오브젝트를 손쉽게 배치하고 제어할 수 있다.

Procedural data pipeline with rich 2D/3D ground truths

다양한 OOD 시각 도전을 갖는 고충실도 환경을 절차적으로 생성하고, 픽셀 정합 RGB/Depth/Segmentation/Part Segmentation/Point Maps 등 2D 및 3D ground truth를 자동으로 산출한다. 또한 보이지 않는 영역의 3D 구조를 모델링하여 occlusion/truncation 비율 및 관계를 정량화한다.

Native MCP integration for interactive, closed-loop control

Model Context Protocol(MCP) 서버를 통해 LLM이 씬을 질의하고 객체를 배치하며 실시간 렌더링 피드백을 수집하는 도구를 표준화한다. 다중 시점 뷰 병렬 렌더링을 통해 대화형 루프의 대역폭을 줄이고 반응 속도를 높인다.

Three case studies: synthetic data engine, adversarial examiners, and language-driven scene planning

합성 데이터 엔진으로 모델의 취약점 진단 및 포스트 트레이닝 데이터 활용, RL 기반 adversarial examiner를 통한 모델 약점 노출, 최신 LLM(Opus 4.6, Gemma 4)과 MCP를 이용한 대화형 씬 레이아웃 생성 등의 응용 사례를 제시한다.

핵심 아이디어 이해하기

출발점: 시각 인식 연구에서 고품질 ground truth와 다양한 도메인(OCclusion, Dense clutter, 변형된 카메라 각도)에서의 robust 평가가 필요하다. 기존 시뮬레이션 시스템은 엔진 복잡성, 제한된 2D/3D 주석, 폐쇄 루프의 부재 등의 한계가 있다. 따라서, UE5 기반의 고품질 자산을 활용하되 접근성을 높이고, 3D 구조를 포함한 포괄적 ground truth를 자동으로 생성하며, MCP를 통해 언어 모델과의 상호작용으로 폐쇄 루프를 구현하는 프레임워크가 필요하다. 해결 원리는(1) Python API로 엔진 복잡성 추상화, (2) 프로시저적 파이프라인으로 다양하고 고품질의 환경 생성, (3) MCP 통합으로 LLM이 씬을 탐색/제어하는 폐쇄 루프 구성이다. 달라지는 점: (i) 2D/3D ground truth를 단순한 바운딩 박스 수준을 넘어 part segmentation, dense point maps, occlusion/truncation 비율 등의 고차원 정보를 자동으로 산출, (ii) 엔진 의존적 도구 호출 대신 고수준 API로 재사용 가능성을 높임, (iii) LLM과 시뮬레이션의 결합으로 대화형 씬 계획 및 적응형 데이터 생성을 가능하게 함.

방법론

아키텍처: Unreal Engine 5 기반으로 3D asset 라이브러리와 Procedural Rules를 활용해 시나리오를 구성하고 2D/3D ground truth를 산출한다. MCP 서버를 통해 Python API를 노출하고, LLM이 도구를 호출해 씬을 탐색/수정하도록 한다. Procedural Rules: 도로/보행 공간, 차량/보행자 경로, 방/가구 배치 등의 네 가지 기하학적 데이터 유형으로 스케일링 가능한 공간 priors를 제공한다. Ground Truth: 뷰-레벨로 깊이 맵, 인스턴스 세그멘테이션, 표면 법선, 포인트 맵 외에 객체의 2D/3D 바운딩 박스, OC/Truncation 비율, 파트 세그멘테이션 등을 자동으로 산출한다. 구현 디테일: MCP는 FastMCP 기반의 JSON 스키마로 도구를 제공하고, XML 변환 계층으로 LLM 툴 호출을 보조한다. 보조 도구로는 list_objects, get_camera_lit, add_object, set_object_location 등 다수의 태스크를 지원한다. 보도/데이터: Plan_scene loft_office.md 예시를 통해 자산 경로, 방 geometry, 레이아웃 요구사항 매핑을 보여준다. 보조 도구를 통해 멀티 뷰 렌더링, 동적 물체 제어, 좌표 시스템(Z-up, left-handed) 등을 관리한다.

관련 Figure

Diagram
다이어그램이 프레임워크의 세 가지 핵심 디자인(쉽게 쓰이는 Python API, 프로시저 데이터 파이프라인, MCP 통합)을 연결해 보여 주며, 폐쇄 루프를 통해 언어 모델과 시뮬레이션 간의 인터랙션 흐름을 시각적으로 설명한다.
LychSim의 시스템 아키텍처를 개괄하는 다이어그램으로, Section 2의 시스템 디자인과 Section 3의 MCP 통합, Section 4의 사례 연구 흐름을 한 화면에 제시한다.

Diagram
MCP 서버를 통한 도구 호출과 시나리오 계획의 흐름을 시각적으로 확인할 수 있으며, agent가 씬의 상태를 탐색하고 조정하는 폐쇄 루프를 이해하는 데 도움이 된다.
Agentic planning과 MCP 연동 흐름을 보여주는 다이어그램으로, LLM이 LychSim의 도구를 호출하고 씬을 계획하는 과정을 요약한다.

Diagram
Procedural Rules의Four types(road, navigable areas, vehicle trajectories, pedestrian trajectories)와 annotation 도구를 시각적으로 설명하여 데이터 생성을 위한 입력 규칙의 구체성을 보여준다.
Interactive annotation tool 및 Procedural Rules의 예시를 보여주는 도식 이미지.

주요 결과

주요 벤치마크: LychSim을 합성 데이터 엔진으로 활용해 공간 언어 모델의 약점을 진단하고 VLM 후학습 데이터 생성에 활용한다. Adversarial Examiners: 3D 카메라 뷰를 구면상에서 탐색하도록 정책을 학습한 GaussianPolicy를 사용해 SAM의 IoU를 최소화하도록 최적화했고, 예시에서 IoU가 0.64와 0.84인 실패 사례를 제시한다. 3D 씬 레이아웃 생성: Opus 4.6 및 Gemma 4를 이용해 사용자의 요구를 반영한 씬 계획을 수행하고, Physically implausible 레이아웃이나 충돌 사례를 확인 및 수정한다. 실험은 런타임의 폐쇄 루프를 통해 어드바이저 SOTA에 대한 한계점을 드러내고, 3D ground truth의 활용도가 높음을 시사한다.

관련 Figure

Photo
실제 렌더링으로 생성된 3D 씬이 인간 눈으로도 인지 가능한 수준으로 구성되었음을 보여주며, 실험에서 제시된 ‘대화형 씬 계획’의 최종 결과를 직관적으로 확인하게 한다.
Loft Office 씬 생성 결과 이미지들(좌상/중상/우상)과 의도된 레이아웃을 보여주는 3장의 시각 샘플.

기술 상세

아키텍처 수준의 상세는 3D Asset Annotation, Ground Truth 확장, MCP 서버 설계, Procedural Rules 및 Object Annotations, Code/Data Release 정책으로 구성된다. Ground Truth 확장은 3D 포인트 맵 및 파트 세그멘테이션, 보이지 않는 영역까지의 Occlusion/Truncation 비율 계산을 포함한다. MCP는 JSON 스키마를 사용하고 XML 브리징으로 LLMs와의 상호작용 신뢰성을 보장한다.

실무 활용

LychSim은 고충실도 합성 데이터 생성과 폐쇄 루프 기반의 언어 기반 씬 구성에 활용 가능하다.

합성 데이터 엔진으로 VLM 후학습 데이터 확장
RL 기반 Adversarial Examiner를 이용한 모델 취약점 진단
MCP를 통한 언어 주도형 3D 씬 레이아웃 생성 및 인터랙티브 편집

코드 공개 여부: 공개

코드 저장소 보기

키워드

LychSim (LychSim)Unreal Engine 5 (언리얼 엔진 5)Model Context Protocol (MCP) (모델 컨텍스트 프로토콜)Procedural generation (절차적 생성)Ground truth annotations (Ground Truth 주석)synthetic data engine (합성 데이터 엔진)OOD evaluation (OOD 평가)multi-view rendering (다중 뷰 렌더링)

LychSim: 비전 연구를 위한 제어 가능하고 인터랙티브한 시뮬레이션 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

왜 중요한가

핵심 기여

Unified Python API for UE5 asset manipulation

Procedural data pipeline with rich 2D/3D ground truths

Native MCP integration for interactive, closed-loop control

Three case studies: synthetic data engine, adversarial examiners, and language-driven scene planning

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

실무 활용

LychSim은 고충실도 합성 데이터 생성과 폐쇄 루프 기반의 언어 기반 씬 구성에 활용 가능하다.

합성 데이터 엔진으로 VLM 후학습 데이터 확장
RL 기반 Adversarial Examiner를 이용한 모델 취약점 진단
MCP를 통한 언어 주도형 3D 씬 레이아웃 생성 및 인터랙티브 편집

코드 공개 여부: 공개

코드 저장소 보기

LychSim: 비전 연구를 위한 제어 가능하고 인터랙티브한 시뮬레이션 프레임워크

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

실무 활용

키워드

LychSim: 비전 연구를 위한 제어 가능하고 인터랙티브한 시뮬레이션 프레임워크

TL;DR

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드