SAM 3D Animal: 야생 이미지에서의 프롬프트 가능 동물 3D 재구성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

야생 장면은 종 다양성과 심한 가림, 다수 동물의 상호작용으로 단일-객체 가정이 깨진다. 본 논문은 SMAL+ 템플릿 기반의 다중 동물 3D 재구성을 프롬프트로 안내하고, Herd3D 데이터셋으로 학습해 다중-동물 occlusion 및 인스턴스 분리를 효과적으로 처리한다. 프롬프트 도입으로 성능이 벤치마크에서도 일관되게 향상되며, 프롬프트 없이도 경쟁력 있는 결과를 보여 준다.

왜 중요한가

야생 장면은 종 다양성과 심한 가림, 다수 동물의 상호작용으로 단일-객체 가정이 깨진다. 본 논문은 SMAL+ 템플릿 기반의 다중 동물 3D 재구성을 프롬프트로 안내하고, Herd3D 데이터셋으로 학습해 다중-동물 occlusion 및 인스턴스 분리를 효과적으로 처리한다. 프롬프트 도입으로 성능이 벤치마크에서도 일관되게 향상되며, 프롬프트 없이도 경쟁력 있는 결과를 보여 준다.

핵심 기여

Promptable multi-animal 3D reconstruction

SMAL+ 파라메트릭 모델과 DETR-스타일 세트-프리딕션으로 프롬프트를 활용해 단일 이미지에서 다수의 동물을 동시에 재구성한다.

Dual prompt modalities (2D keypoints, masks)

2D keypoints 프롬프트는 골격 정합에 직접 기여하고, masks 프롬프트는 실루엣 구분에 보조 정보를 제공하며 두 모드를 결합해 다중 인스턴스 간 해소한다. 키포인트 프롬프트가 주된 기여를 한다.

Herd3D dataset

다중-동물 시나리오를 다루는 5K 이미지 규모의 데이터셋으로 per-instance SMAL+ 파라미터, 2D/3D 키포인트, 바운딩 박스를 포함한다.

End-to-end multi-instance training without pre-cropped inputs

Bounding-box cropping 없이 입력 이미지 전체를 처리하고, Hungarian 알고리즘 기반 bipartite matching으로 다중 인스턴스를 일괄 매칭한다.

SOTA 성능 및 프롬프트 효과

Animal3D, APTv2, Animal Kingdom에서 SOTA에 근접하거나 초과하는 성능을 달성하며, 프롬프트 도입 시 더 큰 이득이 발생한다. GT 프롬프트의 경우 PA-MPJPE/AP/mAP에서 뚜렷한 개선을 보인다.

Ablation 및 프롬프트 스케일링

Herd3D의 도입으로 다중-동물 벤치마크에서 일관된 개선이 확인되며, 프롬프트 키포인트 수 증가에 따른 성능 향상이 관찰된다.

핵심 아이디어 이해하기

출발점: 다중-동물의 3D 재구성은 occlusion과 인스턴스 간 구분의 어려움이 크다. SMAL+를 이용한 파라메트릭 표현으로 포즈와 형태를 함께 모델링한다. 해결 원리: SAM-3D Animal은 set-prediction 형식의 프롬프트 가능한 Transformer로, 2D/3D 키포인트 토큰과 interaction prompt 토큰을 교차-어텐션으로 업데이트하며, 레이어마다 업데이트된 키포인트 토큰으로 점진적으로 추정치를 정제한다. 배치 전체에서 모든 인스턴스를 1회에 예측하기 때문에 별도 NMS가 필요 없다. 효과: 헝가리안 매칭으로 예측-정답 간 매칭을 수행하고, Lparams/L2D/L3D/Lbox 손실로 최적화한다. 프롬프트의 효과를 ablation으로 확인했으며, 키포인트 프롬프트가 가장 큰 기여를 한다. 키포인트 수의 증가에 따라 성능 향상이 점진적으로 계속된다.

방법론

[아키텍처] ViT-Huge 인코더로 입력 이미지를 특징 맵 F로 변환하고, 디코더는 Q 토큰 그룹(Qparams, Qbox, Q2D, Q3D, Qprompt)으로 구성된 SAM-스타일 트랜스포머다. [교차-어텐션] Q(l+1) = CrossAttention(Qc, F)로 레이어를 거치며, Q(l+1)2D는 좌표 임베딩 및 피처 샘플링으로, Q(l+1)3D는 3D 좌표 임베딩으로 업데이트된다. [프롬프트 피드백] 레이어별 2D/3D 프롬프트 토큰은 예측에 따라 재갱신된다. [멀티-인스턴스] Hungarian 알고리즘으로 Ŷ = {ŷi}N의 예측과 Ground-truth Y = {yj}M를 1:1로 매칭하고, 매칭 결과를 바탕으로 손실을 계산한다. [손실] L = λparams Lparams + λ2DL2D + λ3DL3D + λboxLbox로 구성되며, Lparams는 SMAL+ 파라미터, L2D/L3D는 2D/3D 키포인트 손실, Lbox는 바운딩 박스 관련 손실이다. [훈련] Herd3D를 포함한 49.2K 이미지의 혼합 데이터로 2단계 학습(250 에폭 + 250 에폭) 및 프롬프트 드롭아웃을 적용한다. [입력] bounding-box cropping 없이 1개 입력에서 P=30 인스턴스를 예측한다.

주요 결과

주요 벤치마크에서의 성능: Animal3D에서 PA-MPJPE 80.7 mm, AP 92.8, mAP 49.3으로 시작하며, GT 프롬프트를 사용하면 PA-MPJPE 75.8 mm, AP 93.8, mAP 53.4로 향상된다(또한 PCK도 상승). APTv2에서 AP 87.9, mAP 49.4로, GT 프롬프트 시 AP 89.0, mAP 57.4로 증가한다. Animal Kingdom에서 AP 59.2, mAP 45.0에서 GT 프롬프트 시 AP 66.2, mAP 60.1로 상승한다. 프롬프트 없이도 경쟁력 있는 성능을 보이고, 키포인트 프롬프트의 도입으로 특히 occlusion이 큰 경우 성능 개선이 크다. Ablation: Herd3D 제거 시 다중-동물 벤치마크에서 일관된 성능 감소가 발생하며, w/o prompt와 w/o kp 간 성능 저하가 확인된다. 0~15개의 키포인트를 프롬프트로 사용할 때, 키포인트 수 증가에 따라 mAP가 점진적으로 증가하며, 초기 5개 키포인트에서 가장 큰 개선을 보인다. Occlusion 하에서 GT Prompt의 효과는 ViTPose 프롬프트 대비 큰 편이며, GT 프롬프트의 경우 APTv2에서 PCK@0.1이 89.0으로 크게 상승한다.

기술 상세

주요 구성요소: (1) 전체 아키텍처: ViT-Huge 인코더 + SAM 스타일 디코더; (2) 다중 인스턴스 예측: P=30으로 set-prediction 수행 및 bipartite matching via Hungarian 알고리즘; (3) 프롬프트 피드백 루프: 2D 키포인트 토큰은 좌표-피처 임베딩으로 업데이트, 3D 키포인트 토큰은 3D 좌표 임베딩으로 업데이트; (4) 손실 구성: L = λparams Lparams + λ2DL2D + λ3DL3D + λboxLbox; (5) Herd3D를 통한 학습: 49.2K 이미지, 2-stage 학습, 프롬프트 드롭아웃.

실무 활용

단일 이미지로 다수 동물의 3D 재구성을 가능하게 하며, 프롬프트를 통해 occlusion이 심한 환경에서도 정확도를 개선한다.

야생동물 모니터링에서 프롬프트를 이용한 실시간 다중-동물 3D 재구성
생태계 연구에서 상호작용 분석용 다중 인스턴스 3D 모델 생성
데이터 증강 및 애니메이션 제작용 3D 동물 모델 생성
장면-기반 동물 포즈/모션 분석 파이프라인 보조

코드 공개 여부: 미확인

키워드

smal+Herd3Dmulti-animal 3D reconstructionpromptablekeypointsmasksbipartite matchingDETRViTSAM