단일 패스로 다인원 다시점 비디오에서 일관된 인간-장면 재구성

기존 3D 재구성 기술은 사람과 배경을 따로 처리하거나 복잡한 최적화 과정이 필요해 실시간 활용이 어려웠다. 이 논문은 별도의 전처리나 최적화 없이 단 한 번의 연산으로 여러 사람과 주변 환경을 정교하게 복합 재구성하는 통합 프레임워크를 제시한다. 이를 통해 로보틱스나 AR/VR 환경에서 사람의 움직임과 공간 정보를 훨씬 빠르고 정확하게 파악할 수 있게 된다.

핵심 요약

왜 중요한가

핵심 기여

CHROMM 통합 프레임워크

카메라 파라미터, 장면 포인트 클라우드, 다인원 인간 메쉬를 외부 모듈이나 전처리 없이 단일 패스로 동시에 추정하는 최초의 통합 구조이다.

헤드-골반 길이 기반 스케일 조정 모듈

Pi3X의 장면 기하학과 SMPL 인간 모델 사이의 스케일 불일치를 해결하기 위해 이미지 내 헤드-골반 길이 비율을 활용한 자동 스케일 보정 기법을 도입했다.

최적화 없는 테스트 시점 다시점 융합 전략

인간의 속성을 시점 불변(모양, 포즈)과 시점 의존(회전, 평행 이동) 요소로 분리하여 각각 평균화 및 삼각 측량 방식으로 결합하는 효율적인 융합 방식을 사용한다.

기하학 기반 다인원 연관성 기법

외형 기반 재식별(ReID) 대신 3D 위치와 포즈라는 기하학적 단서를 활용해 서로 다른 시점의 인물을 견고하게 매칭한다.

핵심 아이디어 이해하기

기존의 3D 재구성은 주로 정적인 배경을 복원하는 기술(SfM 등)과 사람의 몸짓을 복원하는 기술(HMR 등)이 분리되어 발전해 왔다. 하지만 실제 환경에서는 사람과 배경이 상호작용하므로, 이를 하나의 좌표계에서 동시에 이해하는 것이 필수적이다. 기존 방식들은 두 모델을 단순히 합칠 때 스케일(크기 단위)이 맞지 않아 사람이 바닥을 뚫고 들어가거나 공중에 뜨는 문제가 발생했다. CHROMM은 3D 파운데이션 모델인 Pi3X(장면)와 Multi-HMR(인간)을 듀얼 엔코더 구조로 결합하여 이 문제를 해결한다. 특히 '헤드-골반 길이'라는 신체적 특징을 닻(anchor)으로 삼는다. 이미지에서 측정된 사람의 2D 길이와 모델이 예측한 3D 길이의 비율을 계산하여, 장면의 전체적인 크기를 사람의 실제 크기에 맞춰 실시간으로 미세 조정한다. 또한, 여러 카메라에서 찍은 데이터를 합칠 때 복잡한 반복 계산(Optimization)을 거치는 대신, 사람의 체형처럼 변하지 않는 정보는 평균을 내고 위치처럼 변하는 정보는 수학적 삼각 측량으로 계산한다. 결과적으로 연산량은 대폭 줄이면서도 여러 시점에서 본 정보를 일관성 있게 통합하여 정교한 3D 월드를 완성한다.

방법론

전체 아키텍처는 Pi3X 엔코더와 Multi-HMR 엔코더를 병렬로 사용하는 듀얼 엔코더 구조이다. 입력 이미지에서 장면 특징과 인간 특징을 각각 추출한다. Pi3X 디코더는 장면 토큰을 처리하여 카메라 파라미터와 로컬 3D 포인트 맵을 회귀하며, 메트릭 토큰을 통해 대략적인 메트릭 스케일을 추정한다. 인간 재구성을 위해 Multi-HMR에서 감지된 헤드 토큰과 Pi3X 디코더의 장면 토큰을 MLP로 융합하여 인간 토큰을 생성한다. 이 토큰은 SMPL 디코더로 입력되어 포즈, 체형, 회전 파라미터를 출력한다. 3D 머리 위치는 포인트 맵의 깊이 정보를 활용한 깊이 잔차(depth residual) 방식으로 추정되어 장면 내 배치의 안정성을 높인다. [거친 깊이값과 깊이 잔차 두 값을 더하여 최종 깊이를 얻고, 이를 카메라 역행렬과 연산하여 3D 좌표를 산출하는 방식임] 스케일 조정 모듈은 이미지상의 헤드-골반 거리와 투영된 SMPL 모델의 거리 비율을 계산한다. [각 프레임별 거리 비율들의 평균을 내어 전역 비율을 구하고, 이를 기존 스케일에 곱해 조정된 스케일을 얻음으로써 인간과 장면의 물리적 크기를 일치시킴] 다시점 융합 단계에서는 시점 불변 파라미터(체형, 포즈)는 단순 평균을 내고, 시점 의존 파라미터(회전, 평행 이동)는 세계 좌표계로 변환 후 쿼터니언 평균 및 레이 삼각 측량(ray triangulation)을 수행하여 통합된 전역 표현을 생성한다.

주요 결과

EMDB-2 및 RICH 데이터셋 평가 결과, 단일 시점과 다시점 설정 모두에서 기존 SOTA 모델인 Human3R, UniSH 등을 능가했다. RICH 데이터셋에서 다시점 설정 시 WA-MPJPE 53.1mm, RTE 1.4%를 기록하며 압도적인 정확도를 보였다. EgoHumans 및 EgoExo4D 벤치마크에서 최적화 기반 방식인 HSfM 및 HAMSt3R과 비교했을 때, 정확도는 대등하거나 우수하면서도 실행 속도는 8배 이상 빨랐다. 구체적으로 단일 타임스텝 처리 시간이 기존 32~118초에서 4초 내외로 단축되었다. Ablation study를 통해 스케일 조정 모듈의 유효성을 입증했다. EMDB-2에서 스케일 조정을 적용하지 않았을 때 WA-MPJPE가 169.7mm였으나, 적용 후 102.6mm로 오차가 약 40% 감소했다. 또한 단순 평균 대신 삼각 측량을 사용한 융합 전략이 성능 향상에 기여함을 확인했다.

실무 활용

별도의 카메라 보정이나 복잡한 전처리 없이 일반적인 다시점 영상만으로 3D 장면과 인물을 즉시 복원할 수 있어 실시간성이 중요한 분야에 적합하다.

자율주행 차량의 주변 보행자 3D 경로 예측 및 충돌 방지 시스템
스포츠 경기 중계 시 여러 카메라 피드를 통합한 선수들의 3D 모션 캡처 및 분석
AR/VR 환경에서 실제 사용자의 움직임을 가상 공간에 실시간으로 동기화하는 아바타 생성
로봇의 실내 환경 인지 및 인간과의 상호작용을 위한 공간 매핑

기술 상세

CHROMM은 Pi3X의 순열 불변(permutation-equivariant) 아키텍처를 계승하여 입력 이미지의 순서에 상관없이 일관된 장면 복원이 가능하다. 장면 복원 시 동적인 인간 영역을 제외하기 위해 Multi-HMR의 특징 맵을 입력으로 받는 마스크 MLP를 사용하여 3D 포인트 클라우드에서 인간 부분을 필터링한다. 인간 모델링에는 SMPL-X 파라미터 모델을 사용하며, 기존의 직접적인 좌표 회귀 대신 깊이 맵 기반의 변환 추정 방식을 채택했다. 이는 Pi3X가 제공하는 강력한 깊이 사전 지식(depth prior)을 활용하여 학습 안정성을 높이고 미학습 데이터에 대한 일반화 성능을 개선한다. 다인원 연관성(Multi-person association) 알고리즘은 헝가리안 알고리즘(Hungarian algorithm)을 기반으로 한다. 비용 함수는 3D 관절 위치 오차와 루트 상대적 포즈 유사도를 8:2 비율로 결합하여 정의되며, 이는 외형이 비슷한 사람들이 밀집한 환경에서도 정확한 ID 매칭을 보장한다. 학습은 2단계로 진행된다. 1단계에서는 Pi3X와 Multi-HMR 엔코더를 고정한 채 SMPL 디코더와 융합 모듈을 BEDLAM 데이터셋으로 학습시킨다. 2단계에서는 골반 감지 MLP를 미세 조정하여 실제 환경(in-the-wild) 데이터셋에서의 스케일 추정 정확도를 극대화한다.

한계점

Multi-HMR 및 Human3R과 마찬가지로 헤드 토큰(head token)에 크게 의존한다. 따라서 머리 부분이 심하게 가려지거나 보이지 않는 경우 성능이 저하될 수 있다. 또한 극단적인 줌인 시나리오에서 머리가 이미지의 대부분을 차지할 때도 어려움을 겪는다.

키워드

3D Reconstruction(3D 재구성)Multi-View Video(다시점 비디오)Human Mesh Recovery(인간 메쉬 복원)Scale Adjustment(스케일 조정)Optimization-Free(최적화 불필요)

단일 패스로 다인원 다시점 비디오에서 일관된 인간-장면 재구성

핵심 요약

왜 중요한가

핵심 기여

CHROMM 통합 프레임워크

카메라 파라미터, 장면 포인트 클라우드, 다인원 인간 메쉬를 외부 모듈이나 전처리 없이 단일 패스로 동시에 추정하는 최초의 통합 구조이다.

헤드-골반 길이 기반 스케일 조정 모듈

최적화 없는 테스트 시점 다시점 융합 전략

기하학 기반 다인원 연관성 기법

외형 기반 재식별(ReID) 대신 3D 위치와 포즈라는 기하학적 단서를 활용해 서로 다른 시점의 인물을 견고하게 매칭한다.

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

별도의 카메라 보정이나 복잡한 전처리 없이 일반적인 다시점 영상만으로 3D 장면과 인물을 즉시 복원할 수 있어 실시간성이 중요한 분야에 적합하다.

자율주행 차량의 주변 보행자 3D 경로 예측 및 충돌 방지 시스템
스포츠 경기 중계 시 여러 카메라 피드를 통합한 선수들의 3D 모션 캡처 및 분석
AR/VR 환경에서 실제 사용자의 움직임을 가상 공간에 실시간으로 동기화하는 아바타 생성
로봇의 실내 환경 인지 및 인간과의 상호작용을 위한 공간 매핑

기술 상세

한계점

키워드

3D Reconstruction(3D 재구성)Multi-View Video(다시점 비디오)Human Mesh Recovery(인간 메쉬 복원)Scale Adjustment(스케일 조정)Optimization-Free(최적화 불필요)

단일 패스로 다인원 다시점 비디오에서 일관된 인간-장면 재구성

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

단일 패스로 다인원 다시점 비디오에서 일관된 인간-장면 재구성

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글