SK-Adapter: 네이티브 3D 생성을 위한 스켈레톤 기반 구조 제어

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 3D 생성 모델은 텍스트나 이미지 프롬프트만으로는 정밀한 자세 제어가 어려웠으나, SK-Adapter는 3D 스켈레톤을 직접적인 제어 신호로 사용하여 전문가 수준의 구조적 조작을 가능하게 함. 이는 애니메이션 및 게임 제작 파이프라인에서 즉시 활용 가능한 고품질 3D 자산을 생성하는 데 기여함.

왜 중요한가

핵심 기여

SK-Adapter 프레임워크 제안

네이티브 3D 생성 과정에서 스켈레톤을 통해 정밀한 구조적 제어를 수행하는 최초의 어댑터 기반 프레임워크로, 고정된 백본 모델의 생성 능력을 보존하면서 정밀한 조작 기능을 추가함.

Objaverse-TMS 데이터셋 구축

24,000개의 텍스트-메시-스켈레톤 쌍으로 구성된 대규모 데이터셋을 구축하여 구조 가이드 기반 3D 생성 연구의 데이터 부족 문제를 해결함.

위상 인식 인코딩 및 교차 어텐션 메커니즘

GRPE를 통해 관절의 좌표와 계층적 연결 구조를 토큰화하고, 이를 교차 어텐션 방식으로 주입하여 생성 품질 저하 없이 구조적 일관성을 확보함.

핵심 아이디어 이해하기

기존 3D 생성은 텍스트 임베딩을 통해 전체적인 형태를 잡지만, 관절의 꺾임이나 구체적인 포즈를 제어하기에는 정보가 너무 추상적임. 2D 이미지를 거치는 방식은 깊이 정보 손실과 시점 간 불일치 문제를 야기함.

SK-Adapter는 3D 스켈레톤을 점(Joint)과 선(Bone)의 그래프 구조로 파악하고, 각 관절의 3D 좌표와 연결 관계를 GRPE(Graph Relative Positional Encoding)를 통해 학습 가능한 토큰으로 변환함. 이 토큰들은 고정된 3D 생성 백본인 Trellis의 Transformer 블록 사이에 삽입된 교차 어텐션 레이어를 통해 주입됨.

이를 통해 모델은 기존의 강력한 생성 능력을 유지하면서도 스켈레톤이 지시하는 공간적 제약 조건에 정밀하게 정렬된 3D 복셀을 생성함. 결과적으로 사용자는 스켈레톤을 조정하는 것만으로도 3D 모델의 자세를 자유자재로 제어할 수 있게 됨.

방법론

전체 아키텍처는 고정된 Trellis 백본과 학습 가능한 SK-Adapter로 구성됨. 입력된 3D 스켈레톤 S={J, G}는 관절 좌표 J와 위상 그래프 G를 포함하며, GRPE 인코더는 관절 간의 위상적 거리와 관계를 입력으로 받아 어텐션 바이어스를 계산함. [관절 간 거리 및 관계 입력 → 임베딩 룩업 및 쿼리/키 연산 → 어텐션 맵에 가산 → 계층 구조가 반영된 특징 추출].

추출된 스켈레톤 특징은 Skeletal Cross-Attention 레이어를 통해 백본의 복셀 특징과 결합됨. [복셀 특징을 Query로, 스켈레톤 특징을 Key/Value로 입력 → Softmax 연산 → 가중합 출력 → 복셀이 스켈레톤 위치에 맞게 정렬됨].

학습은 Latent Flow Matching(LFM) 패러다임을 따르며, 백본은 고정하고 어댑터 레이어만 업데이트함. 초기 학습 안정성을 위해 Zero-initialized Linear 레이어를 사용하여 어댑터가 점진적으로 제어 신호를 반영하도록 설계함. [어댑터 출력값 → 0으로 초기화된 가중치 곱셈 → 잔차 연결 → 초기 학습 시 백본 출력 보존].

주요 결과

TMS-eval 벤치마크에서 ReRigging Score(구조 정렬도) 0.2228을 기록하여, 기존 SOTA인 SKDream(0.2818) 대비 구조적 정확도를 대폭 향상시킴. 시각적 품질 측면에서도 PickScore 21.01, KD-DINO 0.7778을 달성하여 인간 선호도와 분포 유사성 모두에서 가장 우수한 성능을 보임.

추론 속도는 3D 자산 하나당 15초 미만으로, 40초 이상 소요되는 2D 리프팅 방식보다 약 2.7배 빠름. 하드웨어 조건이 동일할 때 효율적인 연산 구조를 통해 실시간성에 가까운 생성을 구현함.

Ablation Study 결과, 전용 교차 어텐션 레이어를 제거할 경우 ReRigging Score가 0.5049로 두 배 이상 악화되어 제어 신호 주입 메커니즘의 중요성을 입증함. 또한 위상 인코딩이 없을 경우 복잡한 스켈레톤 구조를 정확히 따라가지 못하는 현상이 확인됨.

기술 상세

SK-Adapter는 Trellis(Flow Transformer)의 각 DiT 블록에 추가적인 Cross-Attention 레이어를 삽입한 구조임. 백본의 파라미터는 동결하고 약 151M개의 어댑터 파라미터만 학습시켜 연산 효율성을 극대화함.

GRPE(Graph Relative Positional Encoding)는 관절 간의 최단 경로 거리(Topological Distance)와 부모-자식 관계(Edge Relation)를 6개의 이산적 레벨로 구분하여 임베딩함. 이는 단순 좌표값만 사용하는 것보다 복잡한 해부학적 구조를 이해하는 데 유리한 구조적 귀납 편향(Structural Inductive Bias)을 제공함.

제어 신호 주입 시 Zero-initialized Linear 레이어를 사용하여 학습 초기에는 백본의 출력을 그대로 유지하게 함으로써, 사전 학습된 강력한 3D 생성 지식이 파괴되는 Catastrophic Forgetting을 방지함.

데이터셋인 Objaverse-TMS는 Anymate와 CAP3D를 결합하여 구축되었으며, 전문가가 주석을 단 고품질 스켈레톤을 포함하고 있어 알고리즘으로 생성된 데이터의 부정확성 문제를 해결하고 정밀한 구조 학습을 가능하게 함.

한계점

백본 모델의 한계로 인해 얼굴과 같은 세밀한 기하학적 디테일이나 텍스처에서 왜곡이 발생할 수 있음. 또한 스파이더맨의 손가락처럼 관절이 매우 복잡하고 겹치는 경우 구조적 가이드가 모호해져 국소적인 품질 저하가 나타날 수 있음.

실무 활용

애니메이션 제작 파이프라인에서 리깅된 스켈레톤을 입력하여 즉시 사용 가능한 3D 캐릭터와 자산을 생성할 수 있음. 기존 자산의 특정 부위를 스켈레톤 가이드로 수정하는 로컬 편집 기능도 제공함.

게임 캐릭터의 특정 포즈 기반 3D 모델링 자동화
기존 3D 모델의 관절 위치 수정을 통한 리포징(Reposing)
텍스트 설명과 스켈레톤을 조합한 맞춤형 크리처 생성
스켈레톤 애니메이션 시퀀스를 활용한 4D 콘텐츠 제작 기초

코드 공개 여부: 공개

코드 저장소 보기

키워드

3D Generation(3D 생성)Skeletal Control(스켈레톤 제어)Adapter(어댑터)Flow Matching(플로우 매칭)Objaverse-TMS(오브자버스-TMS)