핵심 요약
옷이나 수건처럼 형태가 변하는 물체를 다루는 로봇 학습은 데이터 수집 비용이 매우 높고 기존 시뮬레이션은 실제 물리 법칙과 괴리가 컸다. 이 논문은 실제 세계의 물리적 특성을 시뮬레이션에 정밀하게 이식하는 R2S2R 패러다임을 통해, 추가 학습 없이도 실제 로봇에 즉시 적용 가능한 고품질 합성 데이터를 대량으로 생성하는 길을 열었다.
왜 중요한가
옷이나 수건처럼 형태가 변하는 물체를 다루는 로봇 학습은 데이터 수집 비용이 매우 높고 기존 시뮬레이션은 실제 물리 법칙과 괴리가 컸다. 이 논문은 실제 세계의 물리적 특성을 시뮬레이션에 정밀하게 이식하는 R2S2R 패러다임을 통해, 추가 학습 없이도 실제 로봇에 즉시 적용 가능한 고품질 합성 데이터를 대량으로 생성하는 길을 열었다.
관련 Figure

실제 장면을 디지털화하여 시뮬레이션으로 옮기고(R2S), 시뮬레이션 내에서 대규모로 데이터를 확장한 뒤, 다시 실제 로봇으로 제로샷 전이하는 과정을 시각화했다. 이 루프가 어떻게 물리적 일관성을 유지하며 데이터를 스케일링하는지 핵심 구조를 설명한다.
SIM1의 전체적인 Real-to-Sim-to-Real(R2S2R) 워크플로우를 보여주는 다이어그램
핵심 기여
물리 정렬 R2S2R 패러다임 제안
실제 장면 디지털화(R2S), 물리 기반 시뮬레이션 정렬, 합성 데이터 생성 및 실제 로봇 전이(S2R)를 통합하여 시뮬레이션과 현실 간의 간극을 최소화하는 데이터 엔진을 구축했다.
변형 안정화 솔버 및 물리 파라미터 캘리브레이션
Augmented Vertex Block Descent(AVBD)를 확장하여 의류의 과도한 늘어남을 방지하고, 전문가의 비디오 피드백을 통해 마찰력과 탄성 등 물리 파라미터를 실제와 일치시키는 인프라를 개발했다.
확산 모델 기반의 구조적 궤적 합성
복잡한 조작 동작을 상호작용과 이동 구간으로 분리하고, 확산 모델(Diffusion Model)을 사용하여 인간과 유사한 부드러운 전이 동작을 생성함으로써 데이터의 다양성과 품질을 동시에 확보했다.
실제 로봇 환경에서의 제로샷 전이 성공
합성 데이터만으로 학습된 정책이 실제 로봇 배포 시 T-셔츠 접기 작업에서 90%의 제로샷 성공률을 기록했으며, 미학습 물체에 대해서도 50% 이상의 일반화 성능 향상을 입증했다.
핵심 아이디어 이해하기
기존의 로봇 학습용 시뮬레이터는 주로 딱딱한 강체(Rigid Body)를 다루는 데 최적화되어 있어, 부드러운 천의 복잡한 변형과 마찰을 표현할 때 물리적으로 불가능한 늘어남이나 떨림 현상이 발생했다. 이는 시뮬레이션에서 학습한 로봇이 실제 세계에서 실패하는 'Sim-to-Real Gap'의 근본 원인이 된다. SIM1은 이를 해결하기 위해 시뮬레이션 내부의 물리 법칙 자체를 실제 관측값에 고정(Grounding)시키는 전략을 취한다.
먼저 3D 스캔을 통해 실제 옷의 기하학적 구조를 정밀하게 복제한 뒤, AVBD라는 수치 최적화 기법을 도입하여 천의 입자 간 거리가 일정 수준 이상 늘어나지 않도록 강제하는 가상의 탄성 제약 조건을 추가한다. 이는 딥러닝의 Regularization과 유사하게 물리적 수렴 속도를 높이고 안정적인 상태를 유지하게 돕는다. 여기에 전문가의 시연 비디오와 시뮬레이션 영상을 시각적으로 대조하며 마찰력과 감쇠 계수를 미세 조정하여 실제와 똑같이 움직이는 '디지털 트윈' 환경을 완성한다.
결과적으로 이렇게 정교하게 설계된 환경은 로봇에게 실제 세계와 동일한 물리적 피드백을 제공한다. 시뮬레이션에서 수만 번 반복 학습한 로봇은 실제 환경으로 옮겨졌을 때 자신이 처한 상황을 낯설어하지 않고, 마치 시뮬레이션 안에서 움직이듯 자연스럽게 옷을 집어 들고 접는 동작을 수행할 수 있게 된다.
방법론
SIM1 프레임워크는 크게 세 단계의 정렬 과정을 거친다. 첫 번째는 기하학적 정렬(Geometric Alignment)로, EinScan Rigil Pro 3D 스캐너를 사용하여 실제 의류를 서브 밀리미터 단위의 정밀도로 디지털화하고 텍스처를 입힌 메시(Mesh) 자산을 생성한다. 로봇과 주변 환경은 CAD 모델 기반의 URDF 임포트를 통해 실제 치수와 일치시킨다.
두 번째는 동역학적 정렬(Dynamical Alignment)이다. Newton-VBD 솔버를 확장한 변형 안정화 솔버를 사용한다. 각 메시 에지(Edge) e에 대해 현재 길이 ||e_i - e_j||가 정지 길이 l_0의 (1+ξ)배를 초과하면 가상의 인장력을 주입하는 제약 조건 C(e) = ||e_i - e_j|| - (1+ξ)l_0 ≤ 0을 적용한다. [에지 길이 입력 → 임계값 초과 여부 판단 → 초과 시 가상 스프링 힘 계산 → 정점 위치 수정] 과정을 통해 물리적 일관성을 확보한다. 또한 전문가가 실제 로봇을 조작하는 동안 시뮬레이터가 동일한 관절 상태를 복제하도록 하여 시각적 피드백 기반의 파라미터 캘리브레이션을 수행한다.
세 번째는 운동 정렬(Movement Alignment)이다. 수집된 소수의 시연 데이터를 상호작용(Grasp/Release)과 이동(Motion) 구간으로 분리한다. 이동 구간은 조건부 확산 모델(Conditional Diffusion Forcing)을 사용하여 생성한다. [경계 포즈와 로봇 히스토리 입력 → 노이즈 제거 과정을 통한 중간 궤적 예측 → 연속적인 동작 생성] 단계를 거쳐 물리적으로 타당한 대량의 합성 궤적을 생산하고, 비디오 판별기(Discriminator)를 통해 품질이 낮은 샘플을 필터링한다.
관련 Figure

메시 포스트 프로세싱, AVBD 솔버 기반의 파라미터 매칭, 확산 모델을 이용한 궤적 합성 및 유효성 검사 과정을 상세히 나타낸다. SIM1이 기술적으로 어떻게 구성되어 있는지 보여주는 핵심 아키텍처 도표이다.
장면 디지털화, 물리 시뮬레이션 정렬, 구조적 데이터 생성의 3단계 상세 프레임워크
주요 결과
실험 결과, SIM1의 합성 데이터로만 학습된 정책은 실제 데이터로 학습된 모델과 대등한 성능을 보였다. T-셔츠 접기 작업의 인도메인(In-domain) 평가에서 실제 데이터 모델은 97%, SIM1 모델은 87%의 성공률을 기록하여 간극을 10% 이내로 좁혔다. 특히 데이터 효율성 측면에서 실제 데이터 1개는 SIM1 합성 데이터 약 15개와 동일한 가치를 지니는 것으로 분석되었다.
일반화 성능에서는 SIM1이 실제 데이터를 압도했다. 공간적 변화, 텍스처 변화, 조명 변화 환경에서 SIM1 모델은 실제 데이터 기반 모델보다 각각 50%, 13%, 47% 더 높은 성공률을 보였다. 이는 시뮬레이션 내에서 수행된 다양한 텍스처 및 조명 랜덤화(Domain Randomization)가 로봇의 강건성을 크게 향상시켰음을 의미한다.
추가적인 제로샷 전이 실험에서, 학습 과정에서 본 적 없는 폴로 셔츠에 대해 실제 데이터 모델은 20%의 성공률에 그친 반면, SIM1 모델은 70%의 성공률을 달성했다. 또한 수건 뒤집기(80%), 반바지 접기(93%) 등 다른 의류 카테고리에서도 높은 성공률을 기록하며 프레임워크의 범용성을 입증했다.
관련 Figure

시뮬레이션 내에서 구현된 방대한 자산 라이브러리를 보여준다. 17종의 테이블, 28종의 천 재질, 90종의 환경 조합 등을 통해 학습 데이터의 다양성이 어떻게 확보되는지 증명한다.
데이터 생성에 사용된 다양한 의류 자산, 환경 자산, 재질 및 시나리오 예시

합성 데이터의 양이 늘어남에 따라 성공률이 지속적으로 상승하며, 특정 지점에서는 실제 데이터만 사용했을 때의 성능 한계를 넘어선다는 것을 보여준다. 시뮬레이션 데이터의 확장 효율성을 수치적으로 입증한다.
데이터 규모에 따른 성능 변화를 나타내는 스케일링 커브 그래프
기술 상세
SIM1의 핵심 기술적 차별점은 Augmented Vertex Block Descent(AVBD)를 로봇 조작 시뮬레이션에 최적화하여 통합한 점이다. 기존 솔버들이 입자 간의 에너지 최소화에만 집중하여 실시간 상호작용 시 비정상적인 늘어남(Stretching)을 방지하지 못한 것과 달리, SIM1은 명시적인 변형 제약 조건을 Newton 시스템 내에 통합하여 해결했다. 이는 수치적으로 안정적인 rigid-soft 커플링을 가능하게 하여 로봇 그리퍼가 천을 집어 올릴 때 발생하는 복잡한 접촉 역학을 정확히 모사한다.
데이터 생성 알고리즘은 '구조적 분해 후 확산 합성' 방식을 채택했다. 이는 단순히 전체 궤적을 생성하는 것보다 물리적 타당성을 확보하기 쉽다. 상호작용 지점은 전문가의 데이터를 재사용하여 유효성을 보장하고, 그 사이의 경로는 Diffusion Forcing을 통해 채움으로써 데이터의 다양성을 확보한다. 또한 Blender를 활용한 광선 추적(Ray Tracing) 렌더링과 시각적 랜덤화를 결합하여 외형적 Sim-to-Real Gap까지 동시에 해결하는 통합 엔지니어링 접근법을 보여준다.
한계점
현재 SIM1의 한계점은 각 새로운 자산(Asset)에 대해 전문가가 수동으로 물리 파라미터를 튜닝해야 한다는 점이다. 이는 다양한 종류의 의류에 대해 완전 자동화된 데이터 생성을 수행하는 데 제약 요소가 된다.
실무 활용
SIM1은 고가의 실제 로봇 데이터 수집 없이도 시뮬레이션만으로 고성능 의류 조작 로봇을 개발할 수 있는 실무적 파이프라인을 제공한다. 특히 데이터 부족 문제를 겪는 가사 로봇이나 의류 물류 자동화 분야에 즉시 응용 가능하다.
- 가정용 서비스 로봇의 빨래 접기 및 정리 자동화 시스템 구축
- 의류 이커머스 물류 센터에서의 다양한 의류 분류 및 패키징 로봇 학습
- 다양한 재질과 형태의 유연 물체를 다루는 제조 공정용 로봇의 가상 학습 환경 구축
- 로봇의 시각-언어-행동(VLA) 모델 학습을 위한 대규모 합성 데이터셋 생성
코드 공개 여부: 공개
코드 저장소 보기관련 Figure

단순히 한 종류의 옷이 아니라 여러 형태의 의류에 대해 접기, 뒤집기, 펼치기 등 복잡한 작업 궤적이 성공적으로 생성됨을 보여준다. 프레임워크의 범용성을 시각적으로 확인할 수 있다.
T-셔츠, 수건, 반바지 등 다양한 의류에 대한 시뮬레이션 생성 데이터 시각화
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.