핵심 요약
LLM 시장은 Qwen 3.5와 같은 오픈 모델의 약진이 두드러지며, 로보틱스 분야에서는 대규모 인간 영상 데이터를 활용한 월드 모델 학습이 새로운 패러다임으로 자리 잡았다. 엔비디아는 하드웨어뿐만 아니라 로봇 지능을 위한 소프트웨어 아키텍처에서도 압도적인 연구 성과를 보여주고 있다.
배경
최근 Qwen 3.5의 대규모 모델 출시와 Anthropic의 데이터 무단 증류 의혹 제기 등 급변하는 AI 산업 뉴스를 정리한다.
대상 독자
최신 AI 모델 트렌드와 로보틱스 연구 방향에 관심 있는 개발자 및 연구자
의미 / 영향
엔비디아의 이번 연구들은 로봇이 인간의 방대한 영상 기록만으로도 물리적 지능을 습득할 수 있음을 보여주었다. 이는 로봇 전용 데이터를 수집하는 비용을 획기적으로 줄여 범용 로봇(General-purpose Robot)의 상용화 시점을 앞당길 것이다. 또한, 비디오 모델과 로봇 제어의 결합은 '피지컬 AI' 시대의 핵심 아키텍처로 자리 잡을 전망이다.
챕터별 상세
00:00
최신 AI 뉴스: Qwen 3.5 출시와 증류 학습 논란
알리바바의 Qwen 3.5 모델이 0.8B부터 400B까지 다양한 사이즈로 출시되었다. 특히 Qwen 3.5는 동일 파라미터 대비 성능이 매우 뛰어나며, 하이브리드 어텐션 구조를 채택하여 효율성을 높였다. 한편, Anthropic은 중국의 DeepSeek 등이 Claude의 데이터를 대규모로 증류(Distillation)하여 학습했다는 의혹을 제기하며 AI 정렬 및 데이터 저작권 문제를 공론화했다. 구글의 Gemini 3.1 Pro 출시와 ARC-AGI-2 벤치마크에서 77.1%를 기록한 소식도 함께 다루었다.
- •Qwen 3.5는 0.8B 모델이 GPT-4o mini급 성능을 내는 등 체급 대비 압도적 효율을 증명했다
- •Anthropic은 자사 모델의 출력물을 타사 모델 학습에 사용하는 증류 공격에 대한 보안 우려를 표명했다
- •Gemini 3.1 Pro는 추론 능력을 측정하는 ARC-AGI-2 벤치마크에서 최고 수준의 성적을 거두었다
29:40
NVIDIA 로봇 연구 1: DreamDojo (범용 로봇 월드 모델)
DreamDojo는 대규모 인간 행동 영상을 통해 학습된 범용 로봇 월드 모델이다. 4만 4천 시간 분량의 1인칭 시점(Egocentric) 영상을 활용하여 별도의 라벨링 없이 잠재 행동(Latent Action)을 추출하는 방식으로 학습되었다. 로봇이 특정 행동을 선택했을 때 미래의 시각적 변화를 정확히 예측할 수 있으며, 이를 통해 실제 로봇 데이터가 부족한 상황에서도 정교한 제어 정책을 수립할 수 있다. 결과적으로 처음 보는 환경에서도 로봇이 사물을 조작하는 능력이 크게 향상되었다.
- •44k 시간의 인간 영상을 활용해 로봇의 물리적 상호작용을 예측하는 월드 모델을 구축했다
- •라벨 없는 영상에서 잠재 행동을 추출하여 로봇 제어에 활용하는 비지도 학습 기법을 적용했다
- •실제 로봇 환경과 월드 모델 간의 성공률 상관관계가 매우 높음을 입증했다
47:48
NVIDIA 로봇 연구 2: EgoScale (데이터 스케일링 법칙)
EgoScale은 인간 영상 데이터를 확장함에 따라 로봇의 정교한 조작 능력이 어떻게 향상되는지 스케일링 법칙(Scaling Law)을 분석한 연구이다. 2만 시간의 인간 영상을 활용하여 손의 관절 위치와 움직임을 추출하고, 이를 로봇의 VLA(Vision-Language-Action) 모델 학습에 주입했다. 연구 결과, 인간 영상 데이터의 양이 늘어날수록 로봇의 작업 성공률이 로그 스케일로 선형적으로 증가한다는 사실을 발견했다. 이는 로봇 전용 데이터가 부족하더라도 인간 영상만으로 로봇 지능을 고도화할 수 있음을 시사한다.
- •인간 영상 데이터 증량에 따른 로봇 조작 성능의 스케일링 법칙을 최초로 규명했다
- •손 관절 추적 데이터를 VLA 모델에 통합하여 정교한 손동작 학습 효율을 극대화했다
- •50시간의 인간-로봇 정렬 데이터만으로도 강력한 제로샷 작업 수행 능력을 확보했다
56:10
NVIDIA 로봇 연구 3: DreamZero & Cosmos Policy (비디오 액션 모델)
DreamZero와 Cosmos Policy는 최신 비디오 생성 모델을 로봇 제어에 활용하는 비디오 액션 모델(VAM) 연구이다. DreamZero는 'Wan' 비디오 모델을 기반으로 제로샷 환경에서 로봇의 행동을 예측하며, Cosmos Policy는 엔비디아의 Cosmos-Predict 모델을 파인튜닝하여 로봇의 정책을 결정한다. 비디오 모델이 가진 물리적 세계에 대한 이해도를 로봇의 행동 결정에 직접 연결함으로써, 복잡한 물리적 상호작용이 필요한 작업에서 기존 VLA 모델보다 높은 성공률을 보였다. 특히 GB200 GPU 2대를 활용한 실시간 추론 최적화 기법이 적용되었다.
- •비디오 생성 모델의 물리 엔진 역할을 로봇의 행동 계획 수립에 직접 활용했다
- •Cosmos-Predict 모델을 파인튜닝하여 물리적 상호작용이 복잡한 작업의 성공률을 높였다
- •GB200 하드웨어 가속을 통해 14B 규모의 비디오 모델을 실시간 로봇 제어에 적용했다
66:50
NVIDIA 로봇 연구 4: SONIC (전신 모션 트래킹)
SONIC은 휴머노이드 로봇의 자연스러운 전신 움직임을 구현하기 위한 모션 트래킹 기술이다. 인간의 다양한 동작 데이터를 활용하여 로봇이 균형을 잃지 않고 인간의 움직임을 실시간으로 따라 할 수 있도록 설계되었다. 기존에는 로봇이 인간의 동작을 그대로 복제할 경우 무게 중심 문제로 넘어지는 경우가 많았으나, SONIC은 전신 제어(Whole-Body Control) 알고리즘을 통해 기어다니기, 권투 동작 등 난이도 높은 동작도 안정적으로 수행한다. 이는 원격 제어(Teleoperation)를 통한 고품질 학습 데이터 수집에 핵심적인 역할을 한다.
- •인간의 복잡한 동작을 휴머노이드 로봇이 실시간으로 안정적으로 추종하는 기술을 개발했다
- •전신 제어 알고리즘을 통해 동작 복제 시 발생하는 물리적 불균형 문제를 해결했다
- •기어가는 동작이나 격투 동작 등 비정형적인 움직임에서도 높은 안정성을 유지했다
실무 Takeaway
- 로봇 학습 데이터 부족 문제는 대규모 인간 1인칭 영상을 활용한 비지도 학습과 잠재 행동 추출로 해결 가능하다
- 비디오 생성 모델은 단순한 영상 제작을 넘어 로봇이 물리 세계를 이해하고 예측하는 '월드 액션 모델'로 진화하고 있다
- 로보틱스 분야에서도 데이터와 모델 크기를 키우면 성능이 예측 가능하게 향상되는 스케일링 법칙이 유효함이 증명되었다
- 엔비디아는 하드웨어 인프라를 바탕으로 로봇의 시각 지능과 물리 제어를 통합하는 소프트웨어 생태계를 선점하고 있다
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료