HY-Embodied-0.5: 실세계 에이전트를 위한 Embodied 파운데이션 모델

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

일반적인 Vision-Language Model(VLM)이 물리적 환경 이해와 정밀한 행동 계획에 한계를 보이는 문제를 해결하기 위해, 공간 및 시간적 지각 능력을 극대화한 로봇 전용 파운데이션 모델이다. 2B 규모의 경량 모델로도 기존 4B~7B급 모델을 능가하는 성능을 보여주며 실세계 로봇 제어의 효율성을 입증했다.

왜 중요한가

일반적인 Vision-Language Model(VLM)이 물리적 환경 이해와 정밀한 행동 계획에 한계를 보이는 문제를 해결하기 위해, 공간 및 시간적 지각 능력을 극대화한 로봇 전용 파운데이션 모델이다. 2B 규모의 경량 모델로도 기존 4B~7B급 모델을 능가하는 성능을 보여주며 실세계 로봇 제어의 효율성을 입증했다.

핵심 기여

Mixture-of-Transformers (MoT) 아키텍처 도입

시각과 언어 모달리티별로 독립적인 파라미터를 사용하는 MoT 구조를 채택하여, 대규모 시각 학습 시 발생할 수 있는 언어 능력 저하를 방지하고 시각적 모델링 역량을 강화했다.

Visual Latent Tokens 및 하이브리드 손실 함수

시각적 요소 끝에 학습 가능한 잠재 토큰을 추가하고, 시각 재구성 및 전역 CLS 특징 정렬을 포함한 다중 최적화 손실 함수를 통해 시각-언어 간의 연결성을 높였다.

반복적 자기 진화 사후 학습 패러다임

Rejection Sampling Fine-tuning(RFT)과 강화학습(RL)을 교대로 수행하여 모델의 사고 과정을 정교화하고, 복잡한 Embodied 추론 능력을 단계적으로 향상시켰다.

Large-to-Small On-Policy Distillation

32B 대형 모델의 추론 행동과 사고 방식을 2B 경량 모델로 전이하는 온폴리시 증류 기법을 통해, 엣지 디바이스용 모델의 성능 잠재력을 극대화했다.

핵심 아이디어 이해하기

기존의 Transformer 기반 VLM은 시각 토큰과 언어 토큰을 동일한 파라미터로 처리하기 때문에, 로봇 제어에 필요한 미세한 시각 정보를 학습할수록 기존에 학습된 언어 지능이 손상되는 현상이 발생한다. 이는 Self-Attention 메커니즘이 모든 모달리티를 단일 공간에서 처리하려 할 때 발생하는 간섭 문제이다.

HY-Embodied-0.5는 이를 해결하기 위해 Mixture-of-Transformers(MoT)를 도입하여 시각 전용 QKV 및 FFN 레이어를 분리했다. 이를 통해 시각 데이터는 양방향 Attention(Bidirectional Attention)으로 정밀하게 분석하고, 텍스트는 인과적 Attention(Causal Attention)으로 처리하는 모달리티 맞춤형 연산을 수행한다.

또한, 시각 정보의 압축 과정에서 손실되는 세부 정보를 보존하기 위해 Visual Latent Tokens를 도입했다. 이 토큰은 시각적 특징을 요약하여 언어 모델에 전달하는 가교 역할을 하며, 대형 모델로부터 지식을 전수받는 On-Policy Distillation 과정을 거쳐 2B 규모의 작은 모델에서도 복잡한 공간 추론과 행동 계획이 가능하도록 설계됐다.

관련 Figure

#5Screenshot
깊이 추정(Depth Estimation)에서 실제 값(GT)과 매우 유사한 예측치를 보여주며, 복잡한 Counting 작업에서도 Chain-of-Thought 과정을 통해 정확한 숫자를 도출하는 능력을 입증한다.
시각 지각 작업(깊이 추정, 물체 탐지, 계산)에 대한 시각화 결과

방법론

전체 시스템은 HY-ViT 2.0 시각 인코더와 LLM 백본으로 구성되며, Mixture-of-Transformers(MoT) 아키텍처를 통해 모달리티별 적응형 컴퓨팅을 구현했다. 시각 분기에는 비공유 파라미터를 할당하여 언어 능력 저하 없이 시각 성능을 높였으며, 시각 토큰 시퀀스 끝에 Visual Latent Tokens를 추가하여 전역적 시각 정보를 포착했다.

학습은 2단계로 진행된다. 1단계 Pre-training에서는 6,000억 개 이상의 토큰을 사용하여 기초적인 시각-언어 정렬을 수행한다. 이때 시각 재구성 손실(Vision Loss)과 전역 정렬 손실(Global Loss)을 LLM 손실과 함께 최적화한다. 2단계 Mid-training에서는 2,500만 개의 엄선된 Embodied 및 공간 데이터를 사용하여 실제 로봇 환경에 필요한 지능을 주입한다.

사후 학습(Post-training) 과정에서는 GRPO(Group Relative Policy Optimization) 기반의 강화학습과 RFT(Rejection Sampling Fine-tuning)를 결합했다. GRPO는 [G개의 응답 샘플링 → 그룹 내 상대적 보상 계산 → Advantage 산출 → 정책 갱신] 순으로 작동하며, 이를 통해 모델이 정답뿐만 아니라 논리적인 사고 과정(Chain-of-Thought)을 스스로 학습하도록 유도했다.

관련 Figure

#2Diagram
시각(Vision)과 언어(Language) 모달리티가 각각 독립적인 QKV 및 FFN 레이어를 가지는 MoT 구조를 시각화한다. 중간에 위치한 Visual Latent 토큰이 두 모달리티 사이의 가교 역할을 수행하며 다중 손실 함수로 최적화됨을 보여준다.
HY-Embodied-0.5 Mixture-of-Transformers 아키텍처 다이어그램

#4Infographic
2,000억 개 이상의 토큰이 사용된 사전 학습 데이터와 1,200만 개 이상의 QA 쌍이 포함된 중간 학습 데이터의 구성을 보여준다. 공간(Spatial)과 로보틱스(Robotics) 데이터가 핵심 비중을 차지하고 있음을 확인할 수 있다.
사전 학습 및 중간 학습 단계의 데이터 분포도

주요 결과

HY-Embodied-0.5 MoT-2B 모델은 22개의 벤치마크 중 16개에서 동급 규모의 SOTA 모델들을 압도했다. 특히 시각 지각(CV-Bench 89.2%)과 공간 이해(MindCube 66.3%)에서 탁월한 성과를 보였으며, 4B 규모인 Qwen3-VL보다 평균 10.2% 높은 점수를 기록했다.

32B 변체인 MoE-A32B 모델은 평균 점수 67.0%를 달성하여 Gemini 3.0 Pro(63.6%)를 능가하는 성능을 입증했다. 실세계 로봇 제어 실험에서도 Precision Plug-in Packing 태스크에서 85%, Mug Hanging 태스크에서 75%의 성공률을 기록하며 기존 π0 및 π0.5 베이스라인 대비 유의미한 성능 향상을 보였다.

관련 Figure

#1Chart
ERQA, VSIBench 등 주요 벤치마크에서 Qwen3-VL 및 RoboBrain 2.5 대비 우수한 성능을 보여준다. 특히 하단 우측의 로봇 제어 성공률 그래프는 실제 물리적 작업(Packing, Stacking, Hanging)에서 기존 모델들을 크게 앞지름을 증명한다.
HY-Embodied-0.5 MoT-2B 모델의 공간 및 Embodied 벤치마크 성능 비교 차트

기술 상세

모델 아키텍처는 시각 분기와 언어 분기가 파라미터를 부분적으로 공유하는 MoT 구조를 특징으로 한다. 시각 인코더인 HY-ViT 2.0은 임의 해상도 입력을 지원하며, 400M 파라미터 규모로 최적화되어 엣지 추론 효율성을 높였다. 학습 전략 측면에서는 GRPO를 활용하여 보상 함수를 Grounding, Regression, Trajectory, Textual의 4가지 카테고리로 세분화하여 설계했다.

특히 On-Policy Distillation 과정에서는 학생 모델(2B)이 생성한 응답 시퀀스에 대해 교사 모델(32B)의 토큰 분포를 KL Divergence로 학습시키는 방식을 사용했다. 이는 단순 결과 모방이 아닌 교사 모델의 사고 방식(Thinking Style)을 전이하는 데 핵심적인 역할을 한다. 또한, 1억 개 이상의 고품질 시각 지각 및 Embodied 데이터를 구축하여 데이터 중심의 성능 향상을 꾀했다.

관련 Figure

#3Diagram
시각 토큰은 양방향 Full Attention을 사용하고 텍스트 토큰은 인과적 Causal Attention을 사용하는 차별화된 마스킹 전략을 보여준다. 이는 각 모달리티의 특성에 최적화된 정보 처리를 가능하게 한다.
모달리티 적응형 MoT의 Attention 계산 마스크 패턴

한계점

논문은 모델이 실세계 물리 평가에서 우수한 성과를 거두었으나, 여전히 매우 복잡하고 동적인 환경에서의 장기 계획(Long-horizon planning) 시 발생할 수 있는 오류 가능성에 대해 추가적인 연구가 필요함을 시사한다.

실무 활용

엣지 디바이스 배포가 가능한 2B 규모의 고성능 모델을 제공하여 실제 산업용 로봇 및 서비스 로봇에 즉시 적용 가능하다.

제조 현장에서의 정밀 부품 조립 및 패킹 자동화
가정용 서비스 로봇의 복합 가전 기기 조작 및 물건 정리
물류 창고 내 다단계 주문 피킹 및 공간 최적화 배치
실시간 시각 피드백 기반의 로봇 팔 궤적 계획 및 장애물 회피

코드 공개 여부: 공개

코드 저장소 보기

키워드

VLM(비전 언어 모델)Embodied AI(체화된 인공지능)MoT(트랜스포머 혼합)Robot Control(로봇 제어)Knowledge Distillation(지식 증류)Spatial Reasoning(공간 추론)

HY-Embodied-0.5: 실세계 에이전트를 위한 Embodied 파운데이션 모델

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드