의료 로봇을 위한 최초의 오픈 데이터셋 Open-H-Embodiment 및 물리적 AI 파운데이션 모델 공개

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 의료 AI는 주로 인지 및 진단에 치중했으나, 실제 수술과 같은 물리적 행동을 수행하기 위한 데이터와 모델은 부족했다. 이를 해결하기 위해 NVIDIA와 전 세계 35개 기관이 협력하여 최초의 의료 로봇 오픈 데이터셋인 Open-H-Embodiment를 구축했다. 이와 함께 수술 로봇용 시각-언어-행동(VLA) 모델인 GR00T-H와 물리적 시뮬레이션을 수행하는 월드 파운데이션 모델 Cosmos-H-Surgical-Simulator를 공개했다. 이번 발표는 의료 로봇 분야에서 인지를 넘어 추론과 자율 행동이 가능한 물리적 AI의 토대를 마련했다.

배경

로봇 기구학(Kinematics)에 대한 기본 이해, VLA(Vision-Language-Action) 모델의 개념, NVIDIA Isaac 플랫폼 및 Cosmos 모델에 대한 지식

대상 독자

의료 로봇 개발자, 로봇 학습 연구자, 수술 자동화 시스템 설계자

의미 / 영향

의료 로봇 분야의 ImageNet 모먼트를 제공하여, 폐쇄적이었던 수술 데이터를 오픈 소스화함으로써 물리적 AI 연구의 진입 장벽을 획기적으로 낮출 것이다. 이는 향후 수술실 내 자율 보조 시스템의 보급을 가속화할 것으로 기대된다.

섹션별 상세

Open-H-Embodiment는 35개 기관이 협력하여 구축한 778시간 분량의 의료 로봇 학습 데이터셋으로, 수술 로봇, 초음파, 대장내시경 등 다양한 임상 절차와 시뮬레이션 데이터를 포함한다.

GR00T-H 모델은 Isaac GR00T 시리즈를 기반으로 한 최초의 수술 로봇용 VLA 모델로, Cosmos Reason 2 2B를 백본으로 사용하며 고정밀 수술 작업을 수행할 수 있도록 설계되었다.

GR00T-H는 서로 다른 로봇의 기구학을 통합하는 Embodiment Projector, 추론 시 고유 수용 감각 입력을 제외하는 State Dropout, 상대적 말단 장치(EEF) 액션 공간 등을 통해 하드웨어 간 편차를 극복했다.

Cosmos-H-Surgical-Simulator는 NVIDIA Cosmos Predict 2.5 2B를 미세 조정하여 구축한 월드 파운데이션 모델로, 로봇의 움직임에 따른 물리적으로 타당한 수술 영상을 생성하여 시뮬레이션 효율을 극대화한다.

향후 계획은 단순한 제어를 넘어 수술 절차를 설명하고 계획하며 적응할 수 있는 추론 능력을 갖춘 자율 의료 로봇 시스템 구축을 목표로 데이터셋을 확장하는 것이다.

실무 Takeaway

의료 로봇 개발 시 Open-H-Embodiment 데이터셋을 활용하면 778시간 이상의 고품질 수술 및 임상 데이터를 통해 모델의 범용성을 확보할 수 있다.
GR00T-H의 Embodiment Projector 기법을 적용하여 서로 다른 기구학적 구조를 가진 로봇들 간의 행동 데이터를 통합 학습시키고 성능을 개선할 수 있다.
Cosmos-H-Surgical-Simulator와 같은 월드 모델을 활용하면 실제 벤치탑 실험 대비 약 70배 빠른 속도로 가상 환경에서 로봇 정책을 검증하고 데이터를 증강할 수 있다.

언급된 리소스

GitHubOpen-H-Embodiment GitHub Repository

API DocsNVIDIA Isaac GR00T-H Model on Hugging Face

API DocsCosmos-H-Surgical-Simulator on Hugging Face