Sapiens2: 고해상도 인간 중심 비전을 위한 파운데이션 모델

인간의 자세 추정, 신체 분할 등 인간 중심 비전 작업에서 고해상도 데이터 처리는 필수적이지만 연산 비용이 매우 높았다. Sapiens2는 10억 장의 고품질 데이터와 효율적인 4K 아키텍처를 통해 기존 모델 대비 자세 추정 정확도를 4 mAP 개선하고 신체 분할 성능을 24.3 mIoU 높이는 등 압도적인 성능 향상을 달성했다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

10억 장 규모의 고품질 인간 중심 데이터셋 구축

웹 규모의 말뭉치에서 다단계 필터링을 거쳐 최소 한 명 이상의 인물이 포함된 10억 장의 고품질 이미지를 큐레이션하여 사전 학습에 활용했다.

MIM과 CL을 결합한 통합 사전 학습 목적 함수

Masked Image Modeling(MIM)의 세부 복원 능력과 Contrastive Learning(CL)의 의미론적 이해력을 결합하여 제로샷 및 미세 조정 성능을 동시에 극대화했다.

4K 해상도 지원을 위한 계층적 Transformer 아키텍처

Windowed Self-Attention과 Global Self-Attention을 결합한 계층적 구조를 도입하여 4K 고해상도 입력을 효율적으로 처리하고 세밀한 텍스트와 경계를 포착한다.

다양한 인간 중심 작업에서의 SOTA 달성

Pose Estimation, Body-part Segmentation, Normal Estimation 등 주요 작업에서 이전 세대 모델 및 기존 연구들을 큰 폭으로 상회하는 성능을 기록했다.

핵심 아이디어 이해하기

기존의 비전 모델들은 이미지의 일부를 가리고 복원하는 Masked Image Modeling(MIM) 방식에 주로 의존했다. 이는 픽셀 단위의 세밀한 복원에는 유리하지만, 이미지 전체의 의미를 파악하는 능력이 부족해 적은 데이터로 새로운 작업을 수행할 때 한계가 있었다. 반면 Contrastive Learning(CL)은 이미지 간의 유사성을 학습해 의미 파악은 잘하지만, 고해상도 이미지의 세밀한 디테일을 놓치는 경향이 있다.

Sapiens2는 이 두 가지 방식을 하나로 합쳤다. 먼저 이미지를 격자 형태로 나누고 일부를 가린 뒤 이를 복원하게 함으로써 피부의 질감이나 옷의 주름 같은 세밀한 정보를 학습한다. 동시에 서로 다른 각도에서 찍은 같은 사람의 이미지를 가깝게 배치하도록 학습하여 '사람'이라는 객체의 의미론적 특징을 파악한다. 이 과정에서 픽셀 공간에 특징을 고정(anchoring)시켜 정보 손실을 방지한다.

결과적으로 모델은 아주 작은 액세서리나 치아의 경계까지 구분할 수 있는 정밀함과, 처음 보는 환경에서도 사람의 자세를 정확히 찾아내는 범용성을 동시에 갖추게 되었다. 특히 4K 해상도 처리를 위해 국소적인 영역을 먼저 보고 나중에 전체를 통합하는 계층적 방식을 사용하여 연산 효율성까지 확보했다.

방법론

Sapiens2는 0.4B에서 5B 파라미터 규모의 Transformer 모델군으로 구성된다. 사전 학습 단계에서는 1B 규모의 Humans-1B 데이터셋을 사용하며, Masked Autoencoder(MAE) 기반의 복원 손실 함수(Lmae)와 DINOv3 기반의 자기 증류 대조 손실 함수(Lcl)를 결합한 joint objective를 최적화한다.

Lmae 계산을 위해 입력 이미지 x를 패치로 나누고 75%를 마스킹한 뒤, 인코더 Φenc가 가시적 패치만 처리하고 디코더 Φdec가 전체 패치를 복원한다. [마스킹된 패치 위치 정보 입력 → 디코더의 픽셀 값 예측 연산 → 원본 픽셀과의 MSE 측정 → 복원 정확도 수치화] 과정을 거친다. Lcl은 동일 이미지의 다른 뷰(view) 간의 [CLS] 토큰 분포를 일치시킨다. [두 개의 뷰 입력 → 인코더 및 CLS 프로젝션 연산 → Softmax를 통한 확률 분포 생성 → 교차 엔트로피 계산 → 의미론적 일치도 평가] 순으로 진행된다.

4K 해상도 처리를 위해 계층적 어텐션 구조를 채택했다. 초기 K개 레이어에서는 Windowed Self-Attention(Win-SA)을 적용하여 국소적 특징을 추출한다. 이후 [CLS] 토큰 기반의 풀링을 통해 토큰 수를 N/ω로 줄인 뒤, 나머지 L개 레이어에서 Global Self-Attention을 수행하여 장거리 문맥을 융합한다. 학습 안정성을 위해 RMSNorm, GQA, QK-Norm 등의 최신 기법을 통합했다.

관련 Figure

#3Diagram
이미지의 두 가지 뷰를 입력받아 MAE 기반의 복원 손실(Lmae)과 [CLS] 토큰 기반의 대조 손실(Lcl)을 동시에 최적화하는 구조를 시각화하여 통합 학습 원리를 설명한다.
Sapiens2의 사전 학습 프레임워크 다이어그램

주요 결과

Sapiens2-5B 모델은 11K 테스트 세트에서 Pose Estimation 성능 82.3 mAP를 기록하며 Sapiens-1B 대비 5.5 mAP 향상을 보였다. 특히 308개의 조밀한 키포인트를 사용하는 환경에서도 얼굴과 손의 세부 자세를 정확히 포착했다. Body-part Segmentation에서는 5K 테스트 세트 기준 82.5 mIoU를 달성하여 기존 SOTA 모델들을 압도했다.

Normal Estimation 실험에서 Sapiens2-0.4B(가장 작은 모델)조차 평균 각도 오차 8.63도를 기록하며 기존 모델들보다 우수한 성능을 보였다. 5B 모델은 6.73도까지 오차를 줄였으며, 96.13%의 픽셀이 30도 이내의 오차 범위를 만족했다. Albedo Estimation에서도 0.01191 MAE를 기록하며 합성 데이터로만 학습했음에도 실제 이미지에서 뛰어난 일반화 성능을 입증했다.

관련 Figure

#1Photo
Sapiens2가 이전 세대 모델보다 머리카락, 입술 등 세밀한 부분의 분할 정확도가 훨씬 높으며, 법선 벡터(Normal) 추정 시 얼굴 주름과 옷감의 디테일을 더 정교하게 포착함을 보여준다.
Sapiens-1B와 Sapiens2-1B 모델의 Segmentation, Depth, Normal 추정 결과 비교

기술 상세

Sapiens2의 아키텍처는 고해상도 학습의 안정성을 위해 대폭 개선되었다. 기존 LayerNorm 대신 RMSNorm을 사용하고, 쿼리와 키를 어텐션 연산 전 정규화하는 QK-Norm을 도입하여 긴 학습 스케줄에서도 발산을 방지했다. 또한 Grouped-Query Attention(GQA)을 통해 추론 처리량을 높였다.

4K 모델의 경우, 1024x768 해상도에서 사전 학습을 시작한 뒤 4096x3072 해상도에서 짧은 마스킹 복원 단계를 추가하여 서브 픽셀 수준의 정밀도를 확보했다. 디코더는 기존의 단순 업샘플링 대신 Pixel-shuffle 구조를 채택하여 아티팩트 없는 고해상도 출력을 생성한다. 사전 학습 시에는 컬러 증강을 제외한 멀티 뷰 트레이닝을 통해 조명 변화에 강인한 특징을 추출하도록 설계되었다.

관련 Figure

#4Diagram
로컬 윈도우 어텐션(Win-SA)을 통해 세부 특징을 먼저 추출하고, 토큰 풀링 후 글로벌 어텐션(Global-SA)을 수행하는 계층적 방식을 통해 고해상도 연산 효율성을 확보하는 과정을 보여준다.
4K 해상도 처리를 위한 Windowed Self-Attention 구조

한계점

본 논문은 주로 정적인 이미지에서의 인간 중심 비전 작업에 집중하고 있으며, 비디오 시퀀스에서의 시간적 일관성(temporal consistency)에 대한 명시적인 최적화는 다루지 않았다. 또한 합성 데이터로 학습된 Albedo 및 Normal Estimation의 경우 실제 환경의 극단적인 조명 조건에서 일부 성능 저하가 발생할 수 있다.

실무 활용

Sapiens2는 고해상도 인간 중심 비전 기술이 필요한 다양한 산업 분야에서 즉시 활용 가능한 강력한 파운데이션 모델이다.

영화 및 게임 산업을 위한 고정밀 3D 아바타 생성 및 모션 캡처
가상 피팅(Virtual Try-on) 서비스를 위한 정밀한 신체 분할 및 의류 질감 복원
보안 및 관제 시스템에서의 정밀한 행동 분석 및 인물 식별
의료 영상 분석을 통한 환자의 자세 교정 및 재활 상태 모니터링

코드 공개 여부: 공개

코드 저장소 보기

키워드

Transformer(트랜스포머)Human-Centric Vision(인간 중심 비전)Self-Supervised Learning(자기 지도 학습)Dense Prediction(밀집 예측)Pose Estimation(자세 추정)

Sapiens2: 고해상도 인간 중심 비전을 위한 파운데이션 모델

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

10억 장 규모의 고품질 인간 중심 데이터셋 구축

웹 규모의 말뭉치에서 다단계 필터링을 거쳐 최소 한 명 이상의 인물이 포함된 10억 장의 고품질 이미지를 큐레이션하여 사전 학습에 활용했다.

MIM과 CL을 결합한 통합 사전 학습 목적 함수

Masked Image Modeling(MIM)의 세부 복원 능력과 Contrastive Learning(CL)의 의미론적 이해력을 결합하여 제로샷 및 미세 조정 성능을 동시에 극대화했다.

4K 해상도 지원을 위한 계층적 Transformer 아키텍처

Windowed Self-Attention과 Global Self-Attention을 결합한 계층적 구조를 도입하여 4K 고해상도 입력을 효율적으로 처리하고 세밀한 텍스트와 경계를 포착한다.

다양한 인간 중심 작업에서의 SOTA 달성

Pose Estimation, Body-part Segmentation, Normal Estimation 등 주요 작업에서 이전 세대 모델 및 기존 연구들을 큰 폭으로 상회하는 성능을 기록했다.

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

Sapiens2는 고해상도 인간 중심 비전 기술이 필요한 다양한 산업 분야에서 즉시 활용 가능한 강력한 파운데이션 모델이다.

영화 및 게임 산업을 위한 고정밀 3D 아바타 생성 및 모션 캡처
가상 피팅(Virtual Try-on) 서비스를 위한 정밀한 신체 분할 및 의류 질감 복원
보안 및 관제 시스템에서의 정밀한 행동 분석 및 인물 식별
의료 영상 분석을 통한 환자의 자세 교정 및 재활 상태 모니터링

코드 공개 여부: 공개

코드 저장소 보기

키워드

Transformer(트랜스포머)Human-Centric Vision(인간 중심 비전)Self-Supervised Learning(자기 지도 학습)Dense Prediction(밀집 예측)Pose Estimation(자세 추정)

Sapiens2: 고해상도 인간 중심 비전을 위한 파운데이션 모델

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

Sapiens2: 고해상도 인간 중심 비전을 위한 파운데이션 모델

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드