HandX: 양손 동작 및 상호작용 생성의 스케일링

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

사람의 손은 매우 복잡하게 움직이지만 기존 AI는 양손의 협동이나 손가락 마디의 미세한 접촉을 재현하는 데 한계가 있었습니다. 이 논문은 대규모 데이터와 거대 언어 모델을 결합해 손가락의 정밀한 움직임과 양손 사이의 상호작용을 생성하는 기술적 토대를 마련하여 로봇 공학과 가상 현실 분야에 기여합니다.

왜 중요한가

핵심 기여

HandX 대규모 데이터셋 구축

54.2시간의 동작 데이터와 5.9M 프레임, 49만 개의 정교한 텍스트 설명을 포함하는 대규모 양손 동작 데이터셋을 구축하여 데이터 부족 문제를 해결했다.

LLM 기반 자동 주석 파이프라인

동작에서 운동학적 특징을 추출한 뒤 LLM이 이를 해석하여 정교한 텍스트 설명을 생성하는 분리형 전략을 통해 대규모 데이터에 대한 고품질 주석을 자동화했다.

양손 동작 생성 벤치마크 수립

Diffusion 기반 모델과 Autoregressive 모델을 모두 구현하여 양손 동작 생성 성능을 비교하고, 데이터와 모델 규모 확장에 따른 성능 향상 추세를 입증했다.

다지형 로봇으로의 기술 전이

학습된 정교한 손동작 기술이 실제 다지형 로봇 손을 가진 휴머노이드 플랫폼에서도 성공적으로 작동함을 확인했다.

핵심 아이디어 이해하기

기존의 전신 동작 모델은 손을 단순히 팔 끝에 달린 고정된 덩어리로 취급하여 손가락의 세밀한 관절 움직임을 놓치는 경우가 많았습니다. 이는 손가락의 자유도가 매우 높고 양손이 서로 맞닿는 복잡한 물리적 상호작용을 데이터로 캡처하고 설명하기 어렵기 때문입니다.

HandX는 이를 해결하기 위해 '물리적 수치'와 '언어적 의미'를 연결하는 방식을 취합니다. 먼저 손가락의 굽힘 정도나 손가락 간 거리 같은 운동학적 수치를 JSON 형태로 정형화합니다. 그 다음 LLM(Large Language Model)이 이 데이터를 읽고 '왼쪽 검지가 오른쪽 손바닥에 닿았다가 빠르게 떨어진다'와 같은 고차원적인 문맥으로 번역합니다.

이렇게 생성된 정밀한 텍스트-동작 쌍을 학습한 Diffusion 모델은 단순한 명령어를 넘어 '엄지와 중지는 펴고 약지와 새끼손가락만 천천히 굽히는' 수준의 극도로 세밀한 제어가 가능해집니다. 이는 마치 로봇에게 단순한 '잡기' 명령이 아닌 구체적인 '손가락 조작 지침'을 내리는 것과 같습니다.

방법론

데이터 통합 및 정규화 단계에서는 여러 소스의 데이터를 21개 관절의 표준 스켈레톤 구조로 통일하고 60프레임 단위의 클립으로 분할한다. 이때 동작의 강도가 낮은 정적인 구간은 필터링하여 학습 효율을 높이는 강도 인식 필터(Intensity-aware filter)를 적용한다.

자동 캡셔닝 파이프라인은 손가락 굽힘(Flexing), 간격(Spacing), 손바닥 간 관계(Palm-palm relation) 등 6가지 운동학적 기술자(Kinematic Descriptors)를 정의한다. [동작 시퀀스 입력 → 물리적 수치 계산 → JSON 변환 → LLM 프롬프트 입력 → 5단계 상세도의 텍스트 생성] 과정을 거쳐 정교한 주석을 얻는다.

Diffusion 모델은 T5 인코더로 텍스트를 임베딩하고 Transformer Decoder 기반의 노이즈 제거 네트워크를 사용한다. [노이즈 섞인 동작 xt와 텍스트 T 입력 → 신경망 G를 통해 노이즈 제거 → 깨끗한 동작 x0 예측 → 텍스트에 부합하는 동작 생성] 순으로 작동하며, 왼손·오른손·상호작용 텍스트를 별도의 CLS 토큰으로 구분해 인코딩함으로써 양손의 독립성과 협업을 동시에 학습한다.

Autoregressive 모델은 FSQ(Finite Scalar Quantization)를 통해 연속적인 동작 데이터를 이산적인 토큰으로 변환한다. [연속적인 동작 벡터 입력 → 유한한 정수 레벨로 양자화 → 이산 토큰 출력 → 동작을 언어처럼 토큰 단위로 처리]하는 방식을 사용하며, 텍스트를 접두사(Prefix)로 입력하고 다음 동작 토큰을 예측하도록 학습한다.

주요 결과

스케일링 법칙 분석 결과 R-Precision 수치가 연산량(FLOPs)의 로그 값에 비례하여 선형적으로 증가하는 경향이 나타났다. 특히 12개 레이어의 Diffusion 모델이 가장 우수한 접촉 정확도를 보였으며, 그 이상의 과도한 확장은 성능이 포화되는 지점이 존재함을 확인했다.

정량적 평가에서 100% 데이터를 사용한 모델이 5% 데이터 사용 모델 대비 텍스트 정렬 성능에서 압도적인 우위를 점했다. Intra-hand Interaction 평가에서 접촉 정밀도(Cprec) 수치가 데이터 규모에 따라 0.628에서 0.722까지 향상되어 대규모 데이터 학습의 중요성을 입증했다.

정성적 평가에서는 생성된 동작 기술이 실제 다지형 로봇 손을 가진 휴머노이드 플랫폼에 성공적으로 이식되어 복잡한 양손 협동 작업을 수행할 수 있음을 확인했다. 이는 가상 세계에서 학습된 정교한 조작 능력이 물리적 로봇으로 전이될 수 있음을 시사한다.

기술 상세

동작 표현을 위해 각 관절의 3D 좌표와 함께 1자유도(1-DoF) 회전 스칼라(Rotation Scalar)를 결합한 (2J x 4) 차원의 벡터를 사용한다. 이는 손가락 관절의 가동 범위가 제한적이라는 특성을 반영하여 연산 효율을 높이면서도 정확한 회전을 표현하기 위한 설계다.

마스크 기반 부분 노이즈 제거(Masked Partial Denoising) 전략을 도입하여 추론 시 특정 관절이나 특정 손의 동작을 조건으로 고정하고 나머지 부분만 생성할 수 있게 했다. 이는 [고정할 관절 인덱스 설정 → 해당 부분의 노이즈 제거 억제 → 나머지 관절의 확산 공정 진행 → 조건에 부합하는 부분 동작 생성]의 과정을 거친다.

Diffusion 모델 학습 시 왼손, 오른손, 상호작용에 대한 텍스트 프롬프트를 각각 인코딩한 후 Cross-Attention을 통해 융합한다. 단순히 텍스트를 이어 붙이는 방식보다 각 손의 역할을 명확히 구분하여 생성할 수 있게 하며, 이는 양손 동작의 독립성과 협응력을 동시에 확보하는 핵심 장치다.

한계점

HandX 데이터셋이 크게 확장되었음에도 불구하고 실제 세계의 모든 인간적 손재주와 상호작용 시나리오를 완벽히 포괄하기에는 여전히 한계가 있다. 또한 기존 공공 데이터셋을 통합하는 과정에서 발생하는 미세한 지터(Jitter)나 물리적 불일치 문제를 완전히 제거하지 못했다.

실무 활용

고정밀 양손 동작 생성 기술은 가상 현실(VR), 텔레프레젠스, 로봇 제어 분야에서 즉시 활용 가능한 강력한 도구입니다.

VR 게임 및 메타버스 내 캐릭터의 정교한 물체 조작 및 수어 구현
휴머노이드 로봇의 양손 협동 작업(예: 병 뚜껑 열기, 도구 사용) 원격 제어
애니메이션 제작 공정에서 수작업을 대체하는 텍스트 기반 자동 동작 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

Diffusion Model(확산 모델)Bimanual Interaction(양손 상호작용)Motion Synthesis(동작 합성)Dexterous Manipulation(정교한 조작)LLM(대형 언어 모델)