TL;DR
Dexterous manipulation은 접촉-rich·동적 환경에서 파라미터 불확실성과 센서 노이즈에 취약하다. 기존의 domain randomization은 에피소드당 한 인스턴스만 변화를 주어 현실 다변성에 충분히 노출되지 않는 한계가 있다. DRIS는 다중 인스턴스를 병렬로 모델링하고 공유된 행동 아래 상태를 함께 진전시킴으로써 불확실한 물리적 변동성을 더 풍부하게 근사하고, 시뮬레이션-현실 간 차이를 줄여 제로샷 transfer를 가능하게 한다. 시뮬레이션 학습에서 DRIS 크기 N이 증가할수록 안정성과 일반화가 향상되며, 실세계에서의 미세 튜닝 필요를 완화한다.
왜 중요한가
Dexterous manipulation은 접촉-rich·동적 환경에서 파라미터 불확실성과 센서 노이즈에 취약하다. 기존의 domain randomization은 에피소드당 한 인스턴스만 변화를 주어 현실 다변성에 충분히 노출되지 않는 한계가 있다. DRIS는 다중 인스턴스를 병렬로 모델링하고 공유된 행동 아래 상태를 함께 진전시킴으로써 불확실한 물리적 변동성을 더 풍부하게 근사하고, 시뮬레이션-현실 간 차이를 줄여 제로샷 transfer를 가능하게 한다. 시뮬레이션 학습에서 DRIS 크기 N이 증가할수록 안정성과 일반화가 향상되며, 실세계에서의 미세 튜닝 필요를 완화한다.
핵심 기여
DRIS 표현으로 시스템 불확실성 포착
Domain-Randomized Instance Set(DRIS)을 도입해 다중 인스턴스의 상태-파라미터 쌍 Dt를 통해 물리 변동성을 명시적으로 표현하고, St를 통해 해당 인스턴스들의 상태를 집합적으로 다룬다.
DRIS 기반 데이터 수집 및 정책 학습 파이프라인
N개의 병렬 인스턴스에서 공유된 정책을 학습하는 구조를 도입하고, DRIS 인스턴스들의 상태를 Encoded latent zt로 축약한 뒤 PPO로 정책을 업데이트한다. 실시간 inference 시 DRIS의 크기에 독립적인 입력(z_t)을 사용한다.
FiLM- conditioned 정책 네트워크
FiLM 모듈로 zt를 ut( plate tilting configuration)로 조건화하고, 이를 다시 MLP로 정책 매핑한다. αt, βt로 plate의 기울임을 제어하고, 회전과 위치 제어를 결합한다.
제로샷 시뮬-현실 전이 및 이론적 분석
DRIS가 시스템 belief propagation의 exact particle approximation에 해당함을 보이고, DRIS(N>1)가 gradient variance를 감소시켜 학습 안정성과 일반화 성능을 향상시킴을 이론적으로 분석한다(Appendix B).
Reactive catching에서의 실세계 검증
FR3 7-DoF 로봇에 DRIS를 적용해 zero-shot으로 반응적 공 포획을 수행하며, 4종의 공에서 68%의 성공률을 달성하고 모든 테스트 공을 포획했다.
핵심 아이디어 이해하기
출발점: dexterous manipulation은 접촉 동역학과 불확실성으로 인해 시뮬레이션-현실 간 차이가 크게 발생한다. 기존 DR은 한 에피소드에 하나의 파라미터 인스턴스만 무작위화하지만, 이는 다중 가능한 시스템 상태의 전이 분포를 충분히 학습하기 어렵게 한다. 논문은 DRIS를 도입해 N개의 병렬 인스턴스를 공유 행동하에 진전시키고, 각 인스턴스의 상태를 St로 관리하여 예측 분포를 보다 정확하게 추정한다. DRIS 엔코더를 통해 St를 고정 차원의 zt로 매핑하고, FiLM으로 ut에 따라 zt를 조정한 뒤 정책을 학습한다. 이 구조는 시뮬레이션에서 다중 인스턴스로부터의 학습 신호를 평균화하고, 런타임에 단일 관찰에 기반한 제로샷 추론으로도 강건한 성능을 유지한다. 결과적으로, DRIS가 불확실성 하에서도 더 안정적인 최적화를 형성하고, 시뮬-현실 간 전이의 일반화 성능을 높인다.
방법론
단락 1: DRIS의 전체 접근 방식과 핵심 아이디어 입력: 물리 파라미터 공간 C, N개의 인스턴스, 공통 정책 πθ. 연산: 각 i에 대해 s_t^(i)와 c^(i)을 가진 N개 인스턴스의 상태 Dt를 구성하고, Dt+1 = F(Dt, a_t)로 다음 상태를 계산한다. St = projS(Dt)로 단순화된 상태를 얻고, zt = ψ(St)로 고정 차원 벡터로 매핑한다. a_t = πθ(zt)로 결정한다. 출력: 각 t에서의 액션과 업데이트된 DRIS 상태 Dt+1. 의미: 다중 인스턴스의 동시 전이가 정책 학습에 이용되며, 실제 환경에서 단일 관찰에 의해도 제로샷 전이가 가능하다.
주요 결과
단락 1: 시뮬레이션에서 128개의 병렬 환경으로 20스텝 시뮬레이션을 수행하고 DRIS enc/ppo 학습을 진행했다. N ∈ {1, 10, 50, 200}으로 DRIS 크기를 바꿔가며 평가했다. 실험은 관측 노이즈, 실행 노이즈, 불확실한 restitution 값에 대해 수행되었고, DRIS(N>1)에서 더 높은 보상과 성공률을 달성했고, E2E 대비 견고함이 크게 향상되었다. 단락 2: 실행 노이즈와 관측 노이스에서 DRIS(10) 이상이 E2E 및 DRIS(1) 대비 성능 저하를 완화했다. 단락 3: restitution이 보지 않은 값에서 DRIS가 더 잘 일반화하는 경향이 나타났다. 단락 4: 실세계로의 시뮬-현실 전이는 68%의 성공률로 제로샷에서 달성되었고, 테스트한 모든 공을 포획했다.
기술 상세
- 전체 아키텍처 구조: DRIS는 N개의 병렬 인스턴스를 공유 정책에 의해 제어하며, 각 인스턴스의 상태 s_t^(i)와 파라미터 c^(i)을 포함하는 Dt를 구성한다. Dt+1 = F(Dt, a_t)로 업데이트되며, St = projS(Dt)로 상태를 축약한다. zt = ψ(St)로 고정 차원 벡터로 매핑하고, a_t = πθ(zt)로 액션을 생성한다.
- 핵심 메커니즘의 수학적 기반: 정책 πθ는 FiLM 모듈을 통해 zt에 조건 ut를 적용해 z̃t = FiLM(zt, ut) = λ(ut) ⊙ zt + µ(ut)로 변환한다. 그런 다음 MLP를 통해 at를 얻는다. DRIS의 기대 보상은 ∑{t=0}^{T-1} γ^t (1/N) ∑{s∈St} r(s_t, a_t)로 정의되며, zt = ψ(St)로 고정 차원으로 매핑한다. Chamfer distance Lψ(St, Se)로 DRIS encoder를 사전 학습한다.
- Prior work 대비 차별점: 기존 DR은 에피소드당 단일 파라미터 인스턴스만 샘플하는 반면, DRIS는 다중 인스턴스의 상태-동적 분포를 동시에 추정하고, 이 분포에 기반한 정책 학습으로 더 강건한 최적화를 달성한다. DRIS는 belief propagation의 exact particle approximation에 해당한다고 이론적으로 해석된다.
- 구현 및 학습 세부사항, 이론적 분석: DRIS encoder는 Chamfer distance로 사전 학습된 AutoEncoder를 사용하며, 그 후 고정된 인코더를 둔 상태 zt에 대해 PPO로 정책을 학습한다. DRIS 크기 증가(N>1)는 gradient estimator의 분산을 감소시켜 학습을 더 안정적으로 만든다. 또한 시뮬-현실 간 파라미터 분포 차이를 IPM으로 측정하는 이론적 분석이 제시된다.
실무 활용
DRIS 기반 정책 학습은 시뮬레이션에서 물리 파라미터의 불확실성을 다중 인스턴스로 포착하고, 단일 관찰로도 제로샷으로 현실 환경에 잘 일반화하는 로봇 제어 정책을 제공한다.
- 다양한 물체와 접촉하는 로봇 조작에서 불확실성 대응 정책의 일반화
- 로봇 팔의 고속 접촉 기반 제어에서 파라미터 변화에 강건한 정책 학습
- 시뮬레이션에서 다중 인스턴스의 파라미터 분포를 이용한 zero-shot transfer 연구
- FiLM 기반 조건부 정책의 물리적 구성 변화에 대한 적응성 평가
코드 공개 여부: 미확인
키워드
코드 예제
def compute_reward(dt, vt, nt, le, eta):
d_perp = dt.dot(nt)
d_parallel = max(0.0, np.linalg.norm(dt - d_perp*nt))
v_perp = vt.dot(nt)
v_parallel = np.linalg.norm(vt - v_perp*nt)
rv = 0.5*(np.exp(-v_parallel**2/eta**2) + np.exp(-max(v_perp, -0.1)**2/eta**2))
rp = -1 if (d_perp < 0 or d_parallel > le) else 0
return rv + rpDRIS 상태에 따른 보상을 계산하는 예시 코드.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.