Strips as Tokens: 고유 UV 분할 기능을 갖춘 아티스트 수준의 메쉬 생성

기존의 AI 기반 3D 메쉬 생성은 아티스트가 선호하는 정교한 엣지 흐름과 UV 매핑 구조를 유지하는 데 어려움이 있었다. 이 논문은 삼각형 스트립 구조를 활용한 새로운 토큰화 방식을 통해, 별도의 후처리 없이도 즉시 실무에 사용 가능한 고품질의 삼각형 및 사각형 메쉬를 동시에 생성할 수 있는 길을 열었다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

스트립 기반 토큰화 전략

삼각형 스트립(Triangle Strips) 개념을 토큰화에 도입하여 메쉬의 위상적 연속성과 엣지 흐름을 보존하는 직렬화 방식을 제안했다. 이는 기존의 좌표 기반 정렬이나 패치 기반 방식보다 높은 압축률과 구조적 일관성을 제공한다.

통합 삼각형/사각형 디코딩

동일한 토큰 시퀀스를 사용자의 선택에 따라 삼각형 또는 사각형 메쉬로 해석할 수 있는 통합 디코딩 프로토콜을 개발했다. 이를 통해 대규모 삼각형 데이터로 사전 학습하고 고품질 사각형 데이터로 미세 조정하는 시너지 효과를 얻었다.

고유 UV 분할 지원

토큰 시퀀스 내에 UV 아일랜드 경계를 명시하는 전용 토큰을 삽입하여, 메쉬 생성과 동시에 의미론적으로 유효한 UV 차트 분할을 수행하는 최초의 자기회귀 프레임워크를 구축했다.

핵심 아이디어 이해하기

기존의 자기회귀 기반 메쉬 생성 모델은 3D 정점 좌표를 단순히 나열하거나 무작위 패치 단위로 학습했다. 이는 Transformer가 메쉬의 기하학적 형태는 흉내 낼 수 있게 했지만, 숙련된 아티스트가 수작업으로 만든 메쉬 특유의 매끄러운 선(Edge Flow)과 규칙적인 면 구조를 학습하기에는 부적합했다. 마치 문장의 단어 순서가 뒤섞여 있으면 문맥을 파악하기 어려운 것과 같은 이치이다.

SATO는 컴퓨터 그래픽스의 고전적 개념인 '삼각형 스트립'에서 해답을 찾았다. 삼각형 스트립은 인접한 삼각형들이 변을 공유하며 사슬처럼 연결된 구조이다. 이를 토큰화의 기준으로 삼으면, 모델은 자연스럽게 면과 면 사이의 연결 관계와 표면의 곡률 방향을 시퀀스 데이터로서 학습하게 된다. 이는 Transformer의 Attention 메커니즘이 국소적인 연결성뿐만 아니라 전체적인 구조적 흐름을 더 쉽게 포착할 수 있도록 돕는 강력한 유도 편향(Inductive Bias)으로 작용한다.

결과적으로 모델은 단순히 점들의 집합을 예측하는 것이 아니라, 아티스트가 메쉬를 면 단위로 이어 붙여 나가는 논리적인 과정을 모방하게 된다. 특히 사각형은 두 개의 삼각형으로 쪼개질 수 있다는 기하학적 특성을 이용해, 하나의 학습된 모델이 상황에 따라 삼각형 또는 사각형 메쉬를 자유롭게 출력할 수 있는 유연성을 확보했다.

관련 Figure

#3Diagram
하나의 정점이 추가될 때마다 새로운 면이 생성되는 'Zipper-like' 성장 과정을 시각화한다. SATO가 메쉬를 토큰 시퀀스로 변환할 때 사용하는 논리적 순서를 명확히 보여준다.
삼각형 스트립(f1~f7)과 정점(v1~v9)의 대응 관계를 보여주는 상세 도식.

방법론

SATO의 방법론은 크게 세 단계의 파이프라인으로 구성된다. 첫째, 계층적 기하학 양자화(Hierarchical Geometry Quantization)를 통해 3D 좌표를 512^3 해상도의 복셀 그리드 상에서 세 단계의 계층적 튜플로 변환한다. [정점 좌표 (x, y, z) 입력 → 4^3, 8^3, 16^3 해상도의 계층적 인덱스 추출 → 이산적 토큰 시퀀스 출력 → 고해상도 기하 정보의 압축적 표현].

둘째, 스트립 기반 직렬화(Strip-based Serialization)를 수행한다. 알고리즘은 가장 낮은 좌표의 면부터 시작해 인접한 면을 '지퍼'처럼 엮어 나가는 탐욕적(Greedy) 방식으로 스트립을 추출한다. 이때 UV 아일랜드 경계에서는 특수 토큰(C_uv)을 삽입하여 위상적 단절을 명시한다. [메쉬의 면 집합 F 입력 → 공유 변 기반 스트립 추출 및 특수 토큰 삽입 → 정점 스트림 T 출력 → 구조적 흐름이 보존된 시퀀스 형성].

셋째, 통합 디코딩 프로토콜을 적용한다. 사용자가 설정한 스트라이드 파라미터(δ)에 따라, δ=1이면 삼각형으로, δ=2이면 두 정점씩 짝을 지어 사각형으로 복원한다. [토큰 시퀀스 T와 스트라이드 δ 입력 → δ 값에 따른 면 구성 로직 적용 → 최종 메쉬 M 출력 → 단일 모델로 다중 위상 지원].

관련 Figure

#2Diagram
정점 A, B, C, D, E, F가 순서대로 나열될 때 (A,B,C), (B,C,D), (C,D,E) 순으로 삼각형이 형성되는 원리를 보여준다. 이 구조가 어떻게 메모리 효율적인 메쉬 표현과 연속적인 엣지 흐름을 가능하게 하는지 설명하는 핵심 근거이다.
삼각형 스트립의 기본 구조와 정점 순서를 설명하는 다이어그램.

주요 결과

SATO는 ShapeNet, Thingi10K, Objaverse 데이터셋에서 기존 SOTA 모델인 MeshAnythingV2, BPT, DeepMesh 등을 모든 지표에서 압도했다. 특히 ShapeNet 기준 Normal Consistency(NC) 0.975를 기록하여 표면 정밀도를 입증했으며, F1 스코어에서도 0.807로 가장 높은 정확도를 보였다. 사용자 평가에서도 아티스트 수준의 메쉬 품질 항목에서 평균 2.61점(3점 만점)을 받아 경쟁 모델(BPT 1.4점) 대비 월등한 선호도를 기록했다.

Ablation Study 결과, 제안된 스트립 토큰화 방식은 DeepMesh의 패치 방식 대비 토큰 길이를 약 15% 단축시켰으며, 학습 수렴 속도 또한 유의미하게 빨라졌다. 특히 사각형 메쉬 미세 조정을 거친 모델은 삼각형 메쉬 생성 시에도 엣지 라우팅이 더 깔끔해지는 '위상적 시너지'가 확인되었다. UV 분할 실험에서는 Blender의 자동 언랩 알고리즘과 결합했을 때 기존 PartField 방식보다 낮은 왜곡률(L2 Stretch 0.979)을 달성했다.

관련 Figure

#1Screenshot
SATO가 생성한 메쉬(Ours)는 경쟁 모델 대비 엣지 흐름이 훨씬 깔끔하며, 특히 UV 분할(Ours UV) 결과가 의미론적 부위별로 정확하게 나뉘어 있음을 보여준다. 이는 실무에서 텍스처 작업이 가능한 수준의 품질임을 입증한다.
다양한 3D 모델에 대해 BPT, DeepMesh와 SATO의 생성 결과를 비교한 시각 자료.

기술 상세

SATO는 0.5B 파라미터 규모의 Hourglass Transformer 아키텍처를 백본으로 사용한다. 21개의 레이어와 8개의 어텐션 헤드, 1024 차원의 임베딩 공간을 갖추고 있다. 포인트 클라우드 조건화를 위해 Hunyuan3D의 VAE 구조를 차용한 0.27B 규모의 인코더를 처음부터 학습시켜 사용한다. 학습은 9K 토큰 윈도우 크기의 Truncated-window 전략을 채택하여 긴 시퀀스에서도 국소적 일관성을 유지하도록 했다.

가장 중요한 기술적 차별점은 '접두사 공유(Prefix Sharing)'와 '특수 토큰 확장'의 결합이다. 인접한 정점들이 공유하는 상위 계층 좌표를 생략하여 시퀀스를 압축하되, 새로운 스트립이나 UV 아일랜드가 시작될 때만 특수 토큰(C_1*, C_uv)을 사용하여 공유 컨텍스트를 강제로 리셋한다. 이는 모델이 명시적인 구분자 없이도 위상적 경계를 완벽하게 이해하게 만든다. 또한 사각형 메쉬 생성 시 발생하는 비평면성(Non-planarity) 문제를 해결하기 위해 QuadGPT의 평가 프로토콜을 따라 엄격한 평면 제약을 두지 않고 아티스트의 관행을 따랐다.

관련 Figure

#4Diagram
사각형 메쉬의 토큰 시퀀스가 삼각형 메쉬와 완전히 동일할 수 있음을 증명한다. 이 통합 표현 덕분에 단일 모델로 두 가지 위상을 모두 지원하고 데이터 간 시너지를 낼 수 있음을 시각적으로 설명한다.
동일한 스트립 구조가 사각형(a)과 삼각형(b, c)으로 어떻게 통합 해석될 수 있는지 보여주는 비교도.

한계점

사각형 스트립의 길이가 홀수이거나 중복된 정점이 포함된 경우 드물게 국소적인 면이 삼각형으로 퇴화하는 현상이 발생할 수 있다. 또한 구체(Sphere)와 같이 모든 방향으로 균일한 곡률을 가진 형태에서는 엣지 라우팅의 규칙성이 다소 떨어지는 경향이 있는데, 이는 학습 데이터셋의 편향(삼각형 데이터의 비중이 높음)에 기인한 것으로 분석된다.

실무 활용

SATO는 생성된 3D 메쉬를 즉시 게임 엔진이나 애니메이션 파이프라인에 투입할 수 있을 만큼 실무적인 완성도를 제공한다. 특히 UV 분할이 내장되어 있어 텍스처 페인팅 작업 효율을 극대화한다.

게임 에셋 제작: 생성된 사각형 메쉬를 리깅(Rigging) 및 애니메이션에 직접 활용
텍스처링 워크플로: 자동 생성된 UV 차트를 기반으로 Substance Painter 등에서 즉시 페인팅 수행
3D 스캔 데이터 리메싱: 고밀도 스캔 데이터를 아티스트 스타일의 가벼운 메쉬로 변환

코드 공개 여부: 공개

코드 저장소 보기

키워드

Mesh-Generation(메쉬 생성)Autoregressive-Transformer(자기회귀 트랜스포머)Triangle-Strips(삼각형 스트립)UV-Segmentation(UV 분할)3D-Asset-Creation(3D 에셋 제작)

Strips as Tokens: 고유 UV 분할 기능을 갖춘 아티스트 수준의 메쉬 생성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

스트립 기반 토큰화 전략

통합 삼각형/사각형 디코딩

고유 UV 분할 지원

핵심 아이디어 이해하기

관련 Figure

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

관련 Figure

한계점

실무 활용

게임 에셋 제작: 생성된 사각형 메쉬를 리깅(Rigging) 및 애니메이션에 직접 활용
텍스처링 워크플로: 자동 생성된 UV 차트를 기반으로 Substance Painter 등에서 즉시 페인팅 수행
3D 스캔 데이터 리메싱: 고밀도 스캔 데이터를 아티스트 스타일의 가벼운 메쉬로 변환

코드 공개 여부: 공개

코드 저장소 보기

키워드

Mesh-Generation(메쉬 생성)Autoregressive-Transformer(자기회귀 트랜스포머)Triangle-Strips(삼각형 스트립)UV-Segmentation(UV 분할)3D-Asset-Creation(3D 에셋 제작)

Strips as Tokens: 고유 UV 분할 기능을 갖춘 아티스트 수준의 메쉬 생성

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

Strips as Tokens: 고유 UV 분할 기능을 갖춘 아티스트 수준의 메쉬 생성

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드