이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
핵심 요약
Cosmos 3는 세계 생성, 물리적 추론, 행동 생성을 단일 모델로 통합한 최초의 오픈 옴니 모델이다. Mixture-of-Transformers(MoT) 아키텍처를 기반으로 텍스트, 이미지, 비디오, 오디오, 행동 데이터를 단일 패스로 처리한다. 8B 파라미터의 Nano 버전과 32B의 Super 버전으로 구성되어 로봇 공학, 자율 주행 등 물리 AI 시스템 구축에 활용된다. Hugging Face Diffusers 라이브러리와 통합되어 즉시 사용 가능하다.
배경
Python, Hugging Face Diffusers, PyTorch
대상 독자
물리 AI, 로봇 공학, 자율 주행 시스템 개발자 및 연구자
의미 / 영향
Cosmos 3는 물리 AI 개발의 파편화된 모델 구조를 통합하여 개발 효율성을 획기적으로 높인다. 특히 오픈 소스로 공개된 모델과 합성 데이터셋은 물리 세계를 이해하는 AI 에이전트 연구를 가속화할 전망이다.
섹션별 상세
기존 물리 AI 모델은 생성, 추론, 정책 결정이 분리되어 파이프라인 관리가 복잡했다. Cosmos 3는 이를 단일 Mixture-of-Transformers(MoT) 아키텍처로 통합하여 추론과 생성을 동시에 수행한다.
입력 데이터는 텍스트, 이미지, 비디오, 오디오, 행동으로 구성되며, 모델은 이를 공유 표현 공간으로 투영한다. 내부적으로는 자율 회귀(AR) 서브시퀀스가 추론을, 확산(DM) 서브시퀀스가 생성을 담당하여 물리적 인과관계를 예측한다.

Cosmos 3 Nano(8B)는 워크스테이션급 GPU에서 효율적인 추론을 지원하며, Cosmos 3 Super(32B)는 대규모 합성 데이터 생성 및 연구용으로 설계됐다. 두 모델 모두 Hugging Face에 공개되어 즉시 배포 가능하다.
python
import torch
from diffusers import Cosmos3OmniPipeline
pipe = Cosmos3OmniPipeline.from_pretrained(
"nvidia/Cosmos3-Nano",
torch_dtype=torch.bfloat16,
device_map="cuda"
)
prompt = (
"A medium shot of a modern robotics research laboratory with white walls and a gray floor. "
"A robotic arm with a metallic finish is mounted on a clean white workbench, its gripper positioned "
"above a row of small colored objects. A laptop and neatly arranged tools sit beside the robot. "
"A large monitor on the wall behind displays a software interface. The scene is brightly lit by "
"overhead fluorescent lights."
)
result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)Cosmos 3 Nano 모델을 사용하여 텍스트로부터 이미지를 생성하는 파이프라인 실행 예시
NVIDIA는 물리 AI 커뮤니티를 위해 로봇, 물리 시뮬레이션, 공간 추론, 자율 주행 등 다양한 도메인의 합성 데이터 생성(SDG) 데이터셋을 함께 제공한다. 이를 통해 특정 환경에 맞는 모델의 추가 학습(Post-training)이 가능하다.
실무 Takeaway
- Cosmos 3를 활용하면 로봇 제어, 자율 주행 시뮬레이션 등 물리 AI 시스템의 복잡한 파이프라인을 단일 모델로 통합하여 효율성을 높일 수 있다.
- Hugging Face Diffusers 라이브러리의 Cosmos3OmniPipeline을 통해 텍스트-비디오 생성 및 물리 추론 기능을 즉시 프로덕션에 통합할 수 있다.
- 제공된 합성 데이터셋(SDG)을 사용하여 특정 로봇이나 환경에 맞게 모델을 추가 학습(Post-training)함으로써 성능을 최적화할 수 있다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 06. 01.수집 2026. 06. 01.출처 타입 RSS
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.