Learn2Fold: 월드 모델 플래닝을 통한 구조화된 종이접기 생성

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

종이접기는 단 하나의 잘못된 접기만으로도 전체 구조가 무너지는 엄격한 기하학적 제약을 가집니다. 이 논문은 언어 모델의 추론 능력과 물리적 타당성을 검증하는 월드 모델을 결합하여, 텍스트 설명만으로도 실제로 실행 가능한 복잡한 3D 종이접기 순서를 생성하는 새로운 방법을 제시합니다.

왜 중요한가

핵심 기여

Neuro-symbolic 프레임워크 제안

LLM의 고수준 행동 제안과 그래프 구조 월드 모델의 물리적 예측을 통합하여 물리적으로 타당한 종이접기 공정을 생성하는 Learn2Fold 프레임워크를 구축함.

그래프 기반 월드 모델 구축

미분 가능한 surrogate simulator 역할을 수행하며 미래의 기하학적 결과와 실패 모드를 사전에 예측하는 그래프 신경망 기반 월드 모델을 개발함.

OrigamiCode 데이터셋 공개

25개 카테고리, 75,000개 이상의 궤적을 포함하여 종이접기 동역학 학습 및 벤치마크를 위한 대규모 데이터셋을 구축함.

MPC 기반 플래닝 전략 도입

제안된 행동 후보들을 월드 모델로 평가하고 최적의 경로를 선택하는 Model Predictive Control 루프를 통해 장기 의존성 문제를 해결함.

핵심 아이디어 이해하기

종이접기는 단순한 종이의 변형이 아니라 엄격한 기하학적 공리(Axioms)를 따르는 과정이다. 기존 LLM은 텍스트 생성에는 능하지만, 종이가 겹치거나 물리적으로 불가능한 접기 선을 구분하는 '물리적 접지(Physical Grounding)' 능력이 부족하여 실행 불가능한 결과를 내놓는 한계가 있었다.

Learn2Fold는 이를 해결하기 위해 '제안(Proposal)'과 '검증(Verification)'을 분리한다. LLM은 "비행기 날개를 접어라"와 같은 고수준 명령을 그래프 기반의 토큰 시퀀스로 변환하고, 별도로 학습된 '월드 모델'이 이 동작이 물리적으로 가능한지 가상으로 시뮬레이션(Lookahead)하여 부적절한 선택지를 사전에 차단한다.

특히 종이의 상태를 단순한 이미지가 아닌 점과 선의 연결 관계인 '그래프'로 표현함으로써, 회전이나 대칭에도 변하지 않는 구조적 불변성을 확보했다. 이를 통해 모델은 본 적 없는 새로운 접기 패턴에서도 물리 법칙을 준수하며 안정적으로 동작한다.

방법론

전체 시스템은 정규화된 그래프 표현, 생성적 제안 정책(LLM), 그리고 그래프 기반 월드 모델의 세 가지 핵심 요소로 구성된다. 종이의 상태 $s_t$ 는 이면각(Dihedral angles), 진행률, 접기 유형 등을 포함하는 벡터로 정의되며, 모든 입력은 정규화 과정을 거쳐 인덱스 일관성을 유지한다.

제안 정책은 Llama 기반의 경량 디코더 모델을 사용하며, 이산적인 그래프 요소와 연속적인 기하학적 파라미터를 통합된 토큰 공간으로 매핑한다. [텍스트 목표 + 현재 그래프 상태 → 다음 접기 동작 토큰] 순으로 자동 회귀(Autoregressive) 방식으로 생성하며, LoRA를 통해 효율적으로 파인튜닝된다.

월드 모델 $M_\phi$ 는 현재 상태 $s_t$ 와 행동 $a_t$ 를 입력받아 상태 변화량 $\Delta s_t$ 와 제약 위반 가능성 $\hat{c}_{t+1}$ 을 출력한다. [상태 벡터와 행동 토큰 입력 → 그래프 신경망 연산 → 잔차 업데이트 및 마스크 출력 → 다음 상태 예측] 과정을 통해 물리적 타당성을 수치화한다.

추론 시에는 모델 예측 제어(MPC)를 활용한다. LLM이 제안한 $K$ 개의 후보 중 결정론적 시뮬레이터(Level-0)로 명백한 오류를 거르고, 남은 후보들을 월드 모델로 평가하여 목표 달성도와 물리적 타당성이 가장 높은 행동 $a^*_t$ 를 최종 선택한다.

주요 결과

제안된 방법은 Gemini, GPT-5.1, GPT-5.2 등 최신 대형 언어 모델 및 기존 종이접기 모델인 BrickGPT와 비교 실험을 진행했다. Learn2Fold는 단계별 정확도(F1 Score)에서 0.739를 기록하여, 가장 강력한 베이스라인인 GPT-5.1(0.266) 대비 약 47.3% 포인트의 성능 향상을 보였다.

전체 공정 성공률(Cat-SR)에서도 89.12%를 달성하며 베이스라인(최대 67.53%)을 크게 상회했다. 특히 복잡한(Complex) 카테고리에서 베이스라인들이 장기 의존성 문제로 실패하는 것과 달리, 월드 모델의 예측 덕분에 안정적인 생성이 가능함이 확인됐다.

소스 분포 외(OOD) 데이터에 대한 절제 연구(Ablation Study) 결과, 월드 모델과 시뮬레이터 검증이 결합되었을 때 성공률이 20.7%에서 27.7%로 상승하며 강건한 일반화 성능을 입증했다.

기술 상세

종이의 기하학적 구조를 평면 그래프 $G=(V, E)$ 로 모델링하며, 정점(Vertex) 좌표의 사전순 정렬을 통해 정규화(Canonicalization)를 수행한다. 이는 모델이 그래프 동형성(Graph Isomorphism) 문제에 빠지지 않고 구조적 특징에 집중하게 만든다.

행동 공간은 이산적 토큰(접기 종류, 대상 에지)과 양자화된 연속 파라미터(접기 각도)가 혼합된 형태다. 이를 위해 Unified Token Space를 구축하여 LLM이 하이브리드 제어 문제를 시퀀스 모델링 문제로 처리할 수 있도록 설계했다.

월드 모델은 희소 잔차 업데이트(Sparse Residual Update) 방식을 채택한다. 전체 상태를 새로 생성하는 대신, 현재 상태에 변화량 $\Delta s_t$ 를 더하고 국소성 마스크(Locality Mask)를 적용하여 연산 효율성과 물리적 일관성을 동시에 확보한다.

학습 데이터셋인 OrigamiCode는 전문가 시연 데이터에 시뮬레이터 기반의 섭동(Perturbation)과 탐색 데이터를 추가하여 구축되었다. 약 76,000개의 전이(Transition) 데이터를 통해 월드 모델이 성공 사례뿐만 아니라 실패 사례의 원인까지 학습하도록 유도했다.

한계점

현재 모델은 고정된 접기 패턴(Crease Pattern) 내에서의 순서 계획에 집중하고 있으며, 새로운 접기 선을 동적으로 생성하거나 종이의 재질 특성(두께, 탄성 등)을 완전히 반영하는 데에는 한계가 있음.

실무 활용

복잡한 3D 구조물을 평면에서 접어 만드는 제조 공정이나 로봇 조작 분야에 활용될 수 있다. 특히 텍스트 지시만으로 물리적으로 타당한 설계도를 생성할 수 있어 자동화된 설계 도구로서 가치가 높다.

로봇 팔을 이용한 자동 종이접기 공정 제어
복잡한 3D 패키징 및 박스 설계 자동화
위성 안테나 등 전개형 구조물의 접기 시퀀스 최적화

코드 공개 여부: 비공개

키워드

Neuro-symbolic(뉴로-심볼릭)World Model(월드 모델)Origami Generation(종이접기 생성)MPC(모델 예측 제어)Graph Neural Network(그래프 신경망)