EgoForce: 단일 카메라 기반 egocentric 뷰에서 Forearm 가이드로 Camera-Space 3D Hand Pose를 추정하는 프레임워크

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

헤드마운트 디바이스의 제약으로 단일 RGB 카메라만으로도 핸드의 절대 3D 위치를 추정해야 하는 상황이 증가한다. 기존 방법은 depth-스케일 불확실성 및 광학 왜곡에 취약하여 다양한 카메라 구성에서 일반화가 어렵다. EgoForce는 forearm 정보를 활용하고 ray-space lifting을 통해 서로 다른 카메라 모델에서도 절대(camera-space) 3D 핸드 포즈를 복원할 수 있다. HOT3D에서 camera-space MPJPE를 최대 28% 줄이고, 여러 벤치마크에서 카메라-스페이스 추정 및 시계열 안정성을 향상시킨다.

왜 중요한가

헤드마운트 디바이스의 제약으로 단일 RGB 카메라만으로도 핸드의 절대 3D 위치를 추정해야 하는 상황이 증가한다. 기존 방법은 depth-스케일 불확실성 및 광학 왜곡에 취약하여 다양한 카메라 구성에서 일반화가 어렵다. EgoForce는 forearm 정보를 활용하고 ray-space lifting을 통해 서로 다른 카메라 모델에서도 절대(camera-space) 3D 핸드 포즈를 복원할 수 있다. HOT3D에서 camera-space MPJPE를 최대 28% 줄이고, 여러 벤치마크에서 카메라-스페이스 추정 및 시계열 안정성을 향상시킨다.

핵심 기여

HAND-ARM Latent-Shape & Orientation (HALO)

HALO는 핸드와 forearm의 위치·자세를 함께 예측하는 unified(regression) 아키텍처로, 핸드와 팔의 형태를 나타내는 모양 근사치(손/팔 형태 프록시)와 3D 포즈를 함께 예측한다.

ForeArm Representation Model (FARM)

ForeArm를 differentiable한 트랜스폼으로 구성된 경량 메쉬로 표현하고, MANO 손과의 연결부를 안정적으로 고정해 팔-손이 카메라 공간에서 물리적으로 일관되게 재구성되도록 한다.

Crop Intrinsics Token (CIT)과 Crop-모델-독립 학습

Crop별Intrinsic를 토큰으로 인코딩하고, 이를 핸드/암 토큰에 조합함으로써 다양한 렌즈 구성과 crop 비율에 대한 기하 정보를 Transformer에 주입한다.

Ray Space Solver (RSS)

2D 키포인트로부터 유도된 Ray를 이용해 camera-space translation을 최소 제곱으로 추정하는 모듈로, 각 관찰이 빔(ray) 위에 위치하도록 회전/이동을 보정한다. Kalman filter를 추가로 적용해 프레임 간 안정성을 높인다.

Arm-Completion with Variational Prior

Forearm이 비가시인 경우 핸드-조건화된 Variational Prior를 이용해 plausibly한 arm 파라미터를 추정하고, 팔이 보이지 않는 상황에서도 사람의 팔 구성을 일관되게 재구성한다.

Unified cross-camera framework

fisheye, perspective, distorted wide-FOV 등 다양한 카메라 모델에 대해 단일 네트워크로 동작하도록 구성하고, Crop Intrinsics Token과 RSS로 카메라-geometry를 일관되게 처리한다.

핵심 아이디어 이해하기

문제 정의: monocular egocentric 이미지에서 절대 camera-space 핸드 포즈를 얻는 것은 깊이-스케일 모호성과 렌즈 왜곡 때문에 어려움. HALO는 hand와 forearm의 상관관계( Anthropometry)와 동시 예측으로 깊이-스케일 모호성을 줄이고, CIT를 통해 각 crop의 로컬 기하를 명시적으로 모델에 제공한다. RSS는 2D-3D 매핑을 ray-space에서 lift해 눈에 보이는 이미지 좌표 대신 bearing 벡터를 사용하므로 다양한 카메라 모델 간의 차이를 감소시킨다. Arm- conditioned 파이프라인은 Forearm이 보이든 보이지 않든 plausible arm 구성을 보장해 손-팔의 상호작용을 안정적으로 재구성한다. 최종적으로 3D 손-팔 메쉬를 RSS를 통해 camera-space로 직관적으로 리라이팅하며 Kalman 필터로 추적 안정성을 높인다.

방법론

Step 1: HALO는 hand crop I_H와 forearm crop I_A를 입력으로 받아, 2D joints와 MANO/FARM 파라미터를 예측한다. Step 2: Crop Intrinsics Token(CIT)으로 각 crop의 기하 context를 포함시켜 Transformer 인코더에 공급한다. Step 3: Hand-Arm Query를 이용한 transformer 디코더로 f_hand와 f_arm를 얻고, 3D root-relative 파라미터 H와 A를 출력한다. Step 4: Ray Space Solver(RSS)에서 2D-3D 대응을 점-레이로 제약해 t를 최소 제곱으로 추정하고, Kalman filter로 추적을 안정화한다. Step 5: 손-팔 간의 상대 자세를 일치시키고, forearm가 보이지 않는 경우 Variational Prior를 통해 plausible arm를 보완한다. Step 6: 전체 손-팔 메쉬를 camera-space로 리라이팅하고 학습은 합성 손-팔 파라미터, 2D 히트맵, 3D 관절 좌표를 이용해 다양한 데이터셋으로 수행한다. 손/팔 파라미터의 손실(L’MANO, LFARM, Lrel, Lprior, Lcs 등)과 2D/3D 관절 손실, 그리고 3D 카메라 공간 손-팔 정합 손실을 합산하여 최종 손-팔 Meshed를 학습한다.

주요 결과

ARCTIC, HOT3D, H2O, HO3D 등에서 경쟁 방법 대비 카메라-스페이스 정합 및 관절 화질에서 우수한 성능을 보인다. ARCTIC에서 CS-MJE 49.5mm, PS-MJE 8.0mm로 HaMeRD의 2067.3mm에 비해 크게 개선되었다. HOT3D에서 CS-MJE 43.9mm, PS-MJE 6.6mm로 HandDGP 대비 큰 이점을 보이며, H2O에서 CS-MJE 25.0mm, PS-MJE 5.6mm로 가장 좋다. RS-ACC/CS-ACC에서 Ablation에서 CIT와 Undistortion의 결합(D→E)으로 가장 큰 개선을 보여주었다. UmeTrack 대비 개선 폭도 크며, 실시간 처리 속도는 엔드-투-엔드 약 14 FPS로 구현된다. 또한 다양한 렌즈 구성에서도 robust한 카메라-스페이스 재구성이 가능하다고 보고되었다.

기술 상세

전체 아키텍처는 Hand-Arm Latent-Shape & Orientation(HALO), ForeArm Representation Model(FARM), Crop Intrinsics Token(CIT), Ray Space Solver(RSS)로 구성된다. HALO는 hand와 forearm의 2D joints, 3D root-relative joints, MANO 및 FARM 파라미터를 예측하는 2-트랜스포머 구조이다. FARM은 forearm를 5-파라미터(γ, R, t_F, ρ, 등)로 표현하는 differentiable mesh이며, 3D 팔-손 연결은 MANO Wrist에 FARM을 연결하고 elbow 방향 오프셋으로 간섭을 피한다. CIT는 crop의 중심/네 귀 접근점 및 핸드/암 crop의 내부 기하를 16 차원으로 인코딩하고, 이를 ViT 기반 인코딩과 결합한다. RSS는 2D 키포인트와 Ray d_i를 이용해 3D translation t를 최소제곱으로 구하고, Π_i(P_i(t))를 이용한 깊이 제거된 잔차를 최소화한다. Loss로 LH, Ljoints, LMANO, LFARM, Lrel, Lprior, Lcs를 합산하고 필요 시 FARM 파라미터가 없으면 LFARM/Lrel은 0으로 처리한다. Kalman filter를 통해 시간적 안정성을 강화한다. 데이터셋은 Re:InterHand, HandCO, H2O, ARCTIC, HO3D, HOT3D를 혼합해 학습하며, 다양한 intrinsic 노이즈와 crop 설정에 대해 robust하게 일반화한다.

한계점

Calibration 의존성에 의존하며, 대규모 2D 손 데이터만으로의 일반화가 제한적이다. 또한 arm의 정확한 개별 해부학 파라미터를 추정하는 것은 여전히 제한적이며, 팔-팔/팔-오브젝트 상호작용에서의 완전한 상호작용 모델은 미래 연구가 필요하다. Sup.11에 추가 한계가 자세히 기술된다.

실무 활용

단일 카메라 기반의 egocentric 핸드 포즈 추정 및 팔-손의 3D 재구성을 실시간에 가깝게 가능하게 하여 AR/VR, teleoperation, 핸드오브젝트 인터랙션에 적용된다.

AR 글래스에서 핸드 오브젝트 조작의 물리적 상호작용 시나리오에서 즉시 씬과 물리 엔진에 핸드 포즈를 제공
로봇 팔과의 협업 시 카메라 스페이스에서의 정확한 핸드 포즈를 통해 그리핑/피킹 제어
의료 시나리오에서 헤드마운트 카메라를 이용한 원격 수술 시뮬레이션에 핸드-팔 구성을 메트릭하게 제공
AR/VR 핸드 트래킹의 견고성 향상 및 다양한 렌즈 구성에서의 일반화 특징 활용

코드 공개 여부: 공개

코드 저장소 보기

키워드

monocular 3D hand reconstructionegocentric visionforearm contextray-space liftingfisheye opticscrop intrinsics token