핵심 요약
기존의 3D 인간 포즈 추정은 전체 신체 복원에 집중하여 로봇이 실제 작업을 수행할 때 필요한 특정 신체 부위의 정밀한 위치 파악에 한계가 있었다. 이 논문은 시각-언어 모델을 활용해 로봇이 사용자의 명령을 이해하고 작업에 꼭 필요한 신체 부위만 골라 3D 좌표를 계산함으로써 안전하고 자연스러운 근거리 협업을 가능하게 한다.
왜 중요한가
기존의 3D 인간 포즈 추정은 전체 신체 복원에 집중하여 로봇이 실제 작업을 수행할 때 필요한 특정 신체 부위의 정밀한 위치 파악에 한계가 있었다. 이 논문은 시각-언어 모델을 활용해 로봇이 사용자의 명령을 이해하고 작업에 꼭 필요한 신체 부위만 골라 3D 좌표를 계산함으로써 안전하고 자연스러운 근거리 협업을 가능하게 한다.
관련 Figure

악수, 팔 잡기, 마사지 등 구체적인 자연어 명령에 따라 로봇이 사람의 특정 신체 부위 좌표를 (x, y, z) 형태로 정확히 찾아내는 모습을 보여준다. 이는 모델이 언어적 맥락을 이해하고 시각 정보와 결합하여 정밀한 공간 좌표를 도출할 수 있음을 증명한다.
TAIHRI 모델이 다양한 HRI 시나리오에서 작업 관련 3D 키포인트를 추정하는 예시
핵심 기여
HRI 전용 최초의 Vision-Language Model TAIHRI 제안
근거리 인간-로봇 상호작용(HRI) 환경에 최적화된 시각-언어 모델로, 자연어 명령을 통해 작업과 관련된 특정 신체 부위의 3D 키포인트를 직접 추정한다.
이산화된 상호작용 공간 표현 및 Next Token Prediction 활용
연속적인 3D 공간을 복셀(Voxel) 형태의 이산적 토큰으로 변환하여 VLM이 3D 좌표를 텍스트 토큰처럼 예측하도록 설계함으로써 복잡한 회귀 연산 없이 정밀한 위치 추정을 수행한다.
2단계 2D-to-3D 키포인트 추론 메커니즘
Chain-of-Thought 개념을 적용하여 먼저 이미지 평면상의 2D 위치를 찾은 후, 이를 바탕으로 깊이 정보를 추론하여 최종 3D 좌표를 도출하는 단계적 추론 방식을 도입했다.
대규모 근거리 HRI 데이터셋 CloseHRI 구축
로봇 1인칭 시점의 특수성을 반영하기 위해 SDXL과 SAM3 등을 활용하여 100만 장 이상의 고품질 합성 이미지와 정밀한 3D 주석이 포함된 데이터셋을 생성했다.
핵심 아이디어 이해하기
기존의 3D 포즈 추정은 이미지에서 특징을 추출한 뒤 수치적인 좌표값을 직접 계산하는 Regression 방식을 주로 사용했다. 하지만 이는 로봇 시점처럼 신체가 잘리거나 가려지는 환경에서 오차가 크고, 특정 작업에 필요한 부위만 집중해서 보기 어렵다는 한계가 있다. TAIHRI는 이를 해결하기 위해 3D 공간을 격자 형태의 '복셀'로 나누고 각 격자에 번호를 매겨 언어 모델의 단어(Token)처럼 취급한다.
모델은 먼저 이미지 내에서 관찰되는 2D 키포인트의 위치를 픽셀 단위로 찾아낸다. 이는 Transformer 아키텍처가 이미지 내의 공간적 관계를 파악하는 데 능숙하다는 점을 활용한 것이다. 이후 찾아낸 2D 정보를 바탕으로 해당 부위가 카메라로부터 얼마나 떨어져 있는지(Depth)를 추론하여 최종적인 3D 번호를 예측한다. 이 과정은 마치 문장에서 다음 단어를 예측하는 Next Token Prediction과 동일한 원리로 동작한다.
결과적으로 로봇은 '오른손을 잡아줘'라는 명령을 받으면 수많은 신체 부위 중 오른손에 해당하는 토큰에만 집중하여 정밀한 3D 좌표를 계산해낸다. 이는 전체 신체를 다 그릴 필요 없이 작업에 필요한 핵심 정보만 빠르게 추출하여 실제 로봇 제어에 즉시 활용할 수 있게 한다.
방법론
TAIHRI는 Qwen3-VL 아키텍처를 기반으로 하며, 3D 공간을 W x H x D 크기의 복셀 그리드로 이산화한다. 각 축을 0에서 999 사이의 값으로 양자화하여 {Xi, Yi, Zi} 형태의 토큰 인덱스로 변환한다. [실제 좌표 (xi, yi, zi) → 각 축의 범위를 1000으로 나누고 내림 연산 → 정수 인덱스] 과정을 통해 연속적인 공간 정보를 VLM이 처리 가능한 이산 토큰으로 매핑한다.
추론 과정은 2D 키포인트 추론과 3D 좌표 도출의 2단계로 구성된다. 모델은 입력 이미지와 텍스트 프롬프트를 받아 먼저 태그 내에 2D 픽셀 좌표를 생성하고, 이어서 태그 내에 대응하는 3D 복셀 인덱스를 생성한다. [이미지 특징 + 텍스트 임베딩 → Self-Attention 레이어 → 2D 좌표 토큰 → 3D 좌표 토큰] 순으로 연산이 진행되며, 이전 단계의 출력이 다음 단계의 컨텍스트로 작용하여 기하학적 일관성을 유지한다.
학습은 지도 학습(SFT) 후 강화 학습(RL)을 통해 고도화된다. 특히 Group Relative Policy Optimization(GRPO)을 적용하여 생성된 좌표의 정확도를 보상으로 제공한다. [예측 좌표와 정답 좌표 간의 거리 dj 계산 → Huber Loss 기반의 지수 함수 보상 r 산출 → 보상 합계가 높은 방향으로 정책 업데이트] 과정을 거쳐 모델이 물리적으로 타당하고 정밀한 좌표를 생성하도록 최적화한다.
관련 Figure

입력 이미지와 카메라 파라미터를 통합하여 VLM에 입력하고, 2D 키포인트 추론을 거쳐 최종 3D 좌표 토큰을 생성하는 과정을 도식화했다. 생성된 좌표가 로봇 제어나 전신 메시 복원에 어떻게 활용되는지 전체 파이프라인을 설명한다.
TAIHRI의 전체 추론 프로세스 다이어그램
주요 결과
Harmony4D-Egocentric 및 EgoBody 벤치마크에서 기존 SOTA 모델들을 큰 폭으로 제치고 가장 낮은 G-MPJPE(Global Coordinate Mean Per Joint Position Error)를 기록했다. Harmony4D 데이터셋의 상체(Upper body) 평가에서 TAIHRI는 93.83mm의 오차를 기록하여, 기존 CameraHMR(167.50mm)이나 PromptHMR(158.70mm) 대비 약 40% 이상의 성능 향상을 보였다.
Ablation Study 결과, 카메라 내부 파라미터(Intrinsics)를 직접 주입하는 방식이 성능 유지에 필수적임이 확인되었다. 파라미터 주입이 없을 경우 오차가 약 4배 이상(425.13mm) 증가했다. 또한 2D 추론 단계를 생략하고 바로 3D를 예측할 경우 오차가 약 30% 증가하여, 단계적 추론 방식의 유효성을 입증했다.
실제 로봇 플랫폼에서의 실험을 통해 '악수하기', '어깨 마사지' 등의 작업에서 TAIHRI가 제공하는 3D 앵커 포인트가 로봇 팔의 End-effector를 정확하게 가이드할 수 있음을 확인했다. 특히 신체가 일부만 보이는 절단(Truncation) 상황에서도 안정적인 위치 추정 성능을 유지했다.
관련 Figure

CameraHMR, PromptHMR 등 기존 모델들은 신체가 잘린 근거리 뷰에서 큰 오차를 보이지만, TAIHRI는 실제 위치와 매우 유사한 결과를 낸다. 특히 수치적 오차(mm)가 타 모델 대비 현저히 낮음을 시각적으로 확인할 수 있다.
기존 SOTA 모델들과 TAIHRI의 3D 키포인트 추정 결과 비교 시각화
기술 상세
TAIHRI는 Qwen3-VL-2B 및 4B 모델을 백본으로 사용하며, 시각적 입력을 위해 고해상도 처리가 가능한 ViT 구조를 채택했다. 카메라 파라미터의 가변성에 대응하기 위해 모든 입력을 표준 초점 거리(f=1000)로 통일하는 Image Resizing 전략과 원점 오프셋을 시뮬레이션하는 Random Crop Augmentation을 적용하여 일반화 성능을 확보했다.
데이터셋 구축 시에는 AMASS 모션 시퀀스를 기반으로 SMPL-X 모델을 렌더링하고, SDXL을 이용해 배경과 의상을 합성하는 WildHuman 파이프라인을 고도화했다. 특히 SAM3를 이용해 인물 영역의 IoU가 0.9 이상인 샘플만 선별하고, VitPose를 통해 2D 재투영 오차가 15픽셀 미만인 데이터만 학습에 사용하여 노이즈를 최소화했다.
강화 학습 단계에서는 단순한 MSE Loss 대신 PCK(Percentage of Correct Keypoints) 스타일의 성공 지표와 Huber Loss를 결합한 보상 함수를 설계했다. 이는 이상치(Outlier)에 대한 민감도를 낮추면서도 정밀한 위치 수렴을 돕는다. 또한 GRPO 알고리즘을 통해 별도의 Critic 모델 없이도 효율적인 정책 최적화를 달성했다.
한계점
본 논문은 주로 3미터 이내의 근거리 상호작용 시나리오에 집중하고 있어, 원거리에서의 전신 포즈 추정 성능은 상대적으로 낮을 수 있다. 또한 실시간 제어를 위해서는 VLM의 추론 속도 최적화가 추가로 필요할 수 있음을 시사한다.
실무 활용
로봇이 사람과 직접 접촉하거나 도구를 주고받는 정밀한 서비스 로봇 분야에 즉시 적용 가능하다. 특히 카메라가 로봇 머리나 가슴에 장착된 1인칭 시점 환경에서 강력한 성능을 발휘한다.
- 간병 로봇의 환자 이송 보조 (겨드랑이, 허리 등 특정 부위 정밀 파착)
- 협동 로봇의 도구 전달 및 공동 작업 (사용자의 손 위치 실시간 추적)
- 로봇과의 자연스러운 스킨십 인터랙션 (악수, 포옹, 마사지 등)
- 1인칭 시점 영상을 활용한 글로벌 좌표계 기반 인간 메시 복원
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.