TL;DR
헤드마운트 디바이스의 제약으로 단일 RGB 카메라만으로도 핸드의 절대 3D 위치를 추정해야 하는 상황이 증가한다. 기존 방법은 depth-스케일 불확실성 및 광학 왜곡에 취약하여 다양한 카메라 구성에서 일반화가 어렵다. EgoForce는 forearm 정보를 활용하고 ray-space lifting을 통해 서로 다른 카메라 모델에서도 절대(camera-space) 3D 핸드 포즈를 복원할 수 있다. HOT3D에서 camera-space MPJPE를 최대 28% 줄이고, 여러 벤치마크에서 카메라-스페이스 추정 및 시계열 안정성을 향상시킨다.
왜 중요한가
헤드마운트 디바이스의 제약으로 단일 RGB 카메라만으로도 핸드의 절대 3D 위치를 추정해야 하는 상황이 증가한다. 기존 방법은 depth-스케일 불확실성 및 광학 왜곡에 취약하여 다양한 카메라 구성에서 일반화가 어렵다. EgoForce는 forearm 정보를 활용하고 ray-space lifting을 통해 서로 다른 카메라 모델에서도 절대(camera-space) 3D 핸드 포즈를 복원할 수 있다. HOT3D에서 camera-space MPJPE를 최대 28% 줄이고, 여러 벤치마크에서 카메라-스페이스 추정 및 시계열 안정성을 향상시킨다.
핵심 기여
HAND-ARM Latent-Shape & Orientation (HALO)
HALO는 핸드와 forearm의 위치·자세를 함께 예측하는 unified(regression) 아키텍처로, 핸드와 팔의 형태를 나타내는 모양 근사치(손/팔 형태 프록시)와 3D 포즈를 함께 예측한다.
ForeArm Representation Model (FARM)
ForeArm를 differentiable한 트랜스폼으로 구성된 경량 메쉬로 표현하고, MANO 손과의 연결부를 안정적으로 고정해 팔-손이 카메라 공간에서 물리적으로 일관되게 재구성되도록 한다.
Crop Intrinsics Token (CIT)과 Crop-모델-독립 학습
Crop별Intrinsic를 토큰으로 인코딩하고, 이를 핸드/암 토큰에 조합함으로써 다양한 렌즈 구성과 crop 비율에 대한 기하 정보를 Transformer에 주입한다.
Ray Space Solver (RSS)
2D 키포인트로부터 유도된 Ray를 이용해 camera-space translation을 최소 제곱으로 추정하는 모듈로, 각 관찰이 빔(ray) 위에 위치하도록 회전/이동을 보정한다. Kalman filter를 추가로 적용해 프레임 간 안정성을 높인다.
Arm-Completion with Variational Prior
Forearm이 비가시인 경우 핸드-조건화된 Variational Prior를 이용해 plausibly한 arm 파라미터를 추정하고, 팔이 보이지 않는 상황에서도 사람의 팔 구성을 일관되게 재구성한다.
Unified cross-camera framework
fisheye, perspective, distorted wide-FOV 등 다양한 카메라 모델에 대해 단일 네트워크로 동작하도록 구성하고, Crop Intrinsics Token과 RSS로 카메라-geometry를 일관되게 처리한다.
핵심 아이디어 이해하기
문제 정의: monocular egocentric 이미지에서 절대 camera-space 핸드 포즈를 얻는 것은 깊이-스케일 모호성과 렌즈 왜곡 때문에 어려움. HALO는 hand와 forearm의 상관관계( Anthropometry)와 동시 예측으로 깊이-스케일 모호성을 줄이고, CIT를 통해 각 crop의 로컬 기하를 명시적으로 모델에 제공한다. RSS는 2D-3D 매핑을 ray-space에서 lift해 눈에 보이는 이미지 좌표 대신 bearing 벡터를 사용하므로 다양한 카메라 모델 간의 차이를 감소시킨다. Arm- conditioned 파이프라인은 Forearm이 보이든 보이지 않든 plausible arm 구성을 보장해 손-팔의 상호작용을 안정적으로 재구성한다. 최종적으로 3D 손-팔 메쉬를 RSS를 통해 camera-space로 직관적으로 리라이팅하며 Kalman 필터로 추적 안정성을 높인다.
방법론
Step 1: HALO는 hand crop I_H와 forearm crop I_A를 입력으로 받아, 2D joints와 MANO/FARM 파라미터를 예측한다. Step 2: Crop Intrinsics Token(CIT)으로 각 crop의 기하 context를 포함시켜 Transformer 인코더에 공급한다. Step 3: Hand-Arm Query를 이용한 transformer 디코더로 f_hand와 f_arm를 얻고, 3D root-relative 파라미터 H와 A를 출력한다. Step 4: Ray Space Solver(RSS)에서 2D-3D 대응을 점-레이로 제약해 t를 최소 제곱으로 추정하고, Kalman filter로 추적을 안정화한다. Step 5: 손-팔 간의 상대 자세를 일치시키고, forearm가 보이지 않는 경우 Variational Prior를 통해 plausible arm를 보완한다. Step 6: 전체 손-팔 메쉬를 camera-space로 리라이팅하고 학습은 합성 손-팔 파라미터, 2D 히트맵, 3D 관절 좌표를 이용해 다양한 데이터셋으로 수행한다. 손/팔 파라미터의 손실(L’MANO, LFARM, Lrel, Lprior, Lcs 등)과 2D/3D 관절 손실, 그리고 3D 카메라 공간 손-팔 정합 손실을 합산하여 최종 손-팔 Meshed를 학습한다.
관련 Figure

핸드/암 크롭, 카메라-스페이스 포즈, AR 글래스 레이아웃 등을 직관적으로 보여주며, 방법론의 핵심 흐름을 한 눈에 파악하게 한다.
EgoForce 파이프라인의 입력-출력 구성을 시각적으로 요약한 메인 이미지를 제시한다.

HALO, ARM- HAND Crop Encoder, Transformer Decoder, RSS, CIT 등의 모듈 간 연계와 정보 흐름을 구체화한다.
HALO 아키텍처와 HALO-ARM-손-크롭의 입력-출력 흐름을 보여주는 파이프라인 다이어그램.

2D-3D 관계를 ray-space에서 직접 해석하는 핵심 아이디어를 시각화한다.
Ray Space Solver의 개념도. 2D 키포인트와 Ray 방향을 이용해 카메라 스페이스의 트랜스레이션을 구하는 과정을 보여준다.

CIT의 도입으로 crop 기반 기하 정보가 네트워크에 주입되어 핸드 포즈 정합이 향상되는 근거를 시각적으로 보여준다.
CIT( Crop Intrinsics Token)와 undistortion의 차이를 비교하는 예시 이미지.
주요 결과
ARCTIC, HOT3D, H2O, HO3D 등에서 경쟁 방법 대비 카메라-스페이스 정합 및 관절 화질에서 우수한 성능을 보인다. ARCTIC에서 CS-MJE 49.5mm, PS-MJE 8.0mm로 HaMeRD의 2067.3mm에 비해 크게 개선되었다. HOT3D에서 CS-MJE 43.9mm, PS-MJE 6.6mm로 HandDGP 대비 큰 이점을 보이며, H2O에서 CS-MJE 25.0mm, PS-MJE 5.6mm로 가장 좋다. RS-ACC/CS-ACC에서 Ablation에서 CIT와 Undistortion의 결합(D→E)으로 가장 큰 개선을 보여주었다. UmeTrack 대비 개선 폭도 크며, 실시간 처리 속도는 엔드-투-엔드 약 14 FPS로 구현된다. 또한 다양한 렌즈 구성에서도 robust한 카메라-스페이스 재구성이 가능하다고 보고되었다.
관련 Figure

핸드-암 구성이 성능에 미치는 영향과 각 모델 간의 상대적 성능 차이를 수치로 보여준다.
HOT3D에서 EgoForce와 비교한 CS-MJE/PS-MJE 및 CS-ACC 비교 차트.

단일 뷰에서의 핸드-팔 포즈 재구성에서 EgoForce의 강인성을 시각적으로 제시한다.
UmeTrack와 EgoForce의 비교 예시(크롭 설정에 따른 성능 차이).

렌즈 왜곡이 있는 경우에도 카메라 스페이스에서 재구성의 정확성을 유지하는 것을 시각적으로 보여준다.
2D Projection 및 3D 핸드 메쉬의 camera-space 재구성 예시.

실험 결과의 시각적 근거를 제공하고 모델의 시각적 품질을 확인시켜 준다.
실제 이미지에서의 핸드-암 파생 메쉬 오버레이와 ground-truth 비교.
기술 상세
전체 아키텍처는 Hand-Arm Latent-Shape & Orientation(HALO), ForeArm Representation Model(FARM), Crop Intrinsics Token(CIT), Ray Space Solver(RSS)로 구성된다. HALO는 hand와 forearm의 2D joints, 3D root-relative joints, MANO 및 FARM 파라미터를 예측하는 2-트랜스포머 구조이다. FARM은 forearm를 5-파라미터(γ, R, t_F, ρ, 등)로 표현하는 differentiable mesh이며, 3D 팔-손 연결은 MANO Wrist에 FARM을 연결하고 elbow 방향 오프셋으로 간섭을 피한다. CIT는 crop의 중심/네 귀 접근점 및 핸드/암 crop의 내부 기하를 16 차원으로 인코딩하고, 이를 ViT 기반 인코딩과 결합한다. RSS는 2D 키포인트와 Ray d_i를 이용해 3D translation t를 최소제곱으로 구하고, Π_i(P_i(t))를 이용한 깊이 제거된 잔차를 최소화한다. Loss로 LH, Ljoints, LMANO, LFARM, Lrel, Lprior, Lcs를 합산하고 필요 시 FARM 파라미터가 없으면 LFARM/Lrel은 0으로 처리한다. Kalman filter를 통해 시간적 안정성을 강화한다. 데이터셋은 Re:InterHand, HandCO, H2O, ARCTIC, HO3D, HOT3D를 혼합해 학습하며, 다양한 intrinsic 노이즈와 crop 설정에 대해 robust하게 일반화한다.
한계점
Calibration 의존성에 의존하며, 대규모 2D 손 데이터만으로의 일반화가 제한적이다. 또한 arm의 정확한 개별 해부학 파라미터를 추정하는 것은 여전히 제한적이며, 팔-팔/팔-오브젝트 상호작용에서의 완전한 상호작용 모델은 미래 연구가 필요하다. Sup.11에 추가 한계가 자세히 기술된다.
실무 활용
단일 카메라 기반의 egocentric 핸드 포즈 추정 및 팔-손의 3D 재구성을 실시간에 가깝게 가능하게 하여 AR/VR, teleoperation, 핸드오브젝트 인터랙션에 적용된다.
- AR 글래스에서 핸드 오브젝트 조작의 물리적 상호작용 시나리오에서 즉시 씬과 물리 엔진에 핸드 포즈를 제공
- 로봇 팔과의 협업 시 카메라 스페이스에서의 정확한 핸드 포즈를 통해 그리핑/피킹 제어
- 의료 시나리오에서 헤드마운트 카메라를 이용한 원격 수술 시뮬레이션에 핸드-팔 구성을 메트릭하게 제공
- AR/VR 핸드 트래킹의 견고성 향상 및 다양한 렌즈 구성에서의 일반화 특징 활용
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.