생성적 재귀 추론 모델(GRAM)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

GR A M은 재귀적 latent 추론을 확률적 다중 경로 계산으로 전환한다. 입력 x에 대해 pθ(y|x)를 근사하기 위해 여러 잠재 경로를 샘플링하고, 추론 시 깊이(depth)와 너비(width) 모두에서 스케일링이 가능하다. HRM, TRM 같은 deterministic RRMs의 한계를 넘어 다양한 후보 해를 병렬 탐색할 수 있으며, 조건부 해결뿐 아니라 입력이 없을 때의 무조건적 생성도 가능하다. Sudoku-Extreme, ARC-AGI, N-Queens, Graph Coloring 등 구조적 추론 벤치마크에서 성능 향상을 보이고, MNIST 같은 무조건적 생성 작업에서도 활용 가능성을 보인다.

왜 중요한가

핵심 기여

확률적 다중-경로 재귀 추론의 형식화

GR A M은 recursive 추론을 pθ(τ|x) 형태의 잠재 경로 분포로 모델링하고, z0에서 시작해 zt를 샘플링하는 다중 경로의 합성가능한 확률적 프레임워크를 제공한다.

고수준/저수준의 이계 구조와 노이즈 가이드

ily 두 계층 z=(h,l)로 구성하고, 저수준은 K회의 deterministic 업데이트 l_t,k를 통해 세부 계산을 수행하며, 고수준은 fH를 통해 확정적 업데이트 ut를 생성한 뒤 가우시안 노이즈 ϵt를 곱해 ht를 얻는다. 이를 통해 탐사와 안정성을 모두 확보한다.

깊이-깊이(scalar depth)와 폭(width) 확장의 조합

Nsup의 다중 감독 학습과 parallel sampling으로 추론 시 깊이(depth)와 폭(width) 모두를 확장한다. LPRM(vψ)을 사용해 각 경로의 최종 품질을 예측하고 다수의 후보 중 최적 경로를 선택한다.

에비던스 기반 학습: ELBO와 트렁케이트 서브-오브젝트

GR A M은 ELBO를 근거로 θ, ϕ를 학습한다. 트렁케이트된 surrogate objective LGRAM은 메모리-효율적 역전파를 가능하게 하며, 전체 ELBO와의 관계를 실증적으로 확인한다.

무조건적 생성과 조건부 추론의 공존

입력을 비워 pθ(x) 형태의 무조건적 생성도 정의되며, Sudoku 무조건 생성과 MNIST 무조건 생성에서 유의미한 성능·퀄리티 개선을 보인다.

핵심 아이디어 이해하기

단락 1: 기존 RRMs는 입력과 초기화가 같으면 단일 고정 경로를 따라 한 가지 예측으로 수렴한다. 이는 여러 가능한 추론 경로를 동시에 탐색하지 못하게 하며 다중해를 포착하기 어렵게 만든다. 단락 2: GRAM은 추론 과정을 확률적 잠재 경로로 모델링한다. 각 단계에서 zt-1과 입력 ex를 조건으로 pθ(zt|zt-1,ex)를 샘플링한다. 내부 루프(K회)에서 l를 세밀하게 업데이트하고 외부 루프에서 h를 확정적으로 갱신한 뒤, ϵt를 샘플링해 ht를 얻고 zt=(ht,lt)를 구성한다. 이 구성은 다중 경로를 가능하게 하여 다양한 해결책을 탐사하게 한다. 단락 3: 이 프레임워크는 추론 시 깊이와 폭을 동시에 확장할 수 있게 하며, LPRM으로 후보 해의 질을 예측해 다수의 경로 중 최적 경로를 선택한다. 또한 pθ(y|x) 뿐 아니라 pθ(x)도 정의하여 unconditional generation도 가능하게 한다. 이로써 구조적 추론의 다중 해 탐색과 제너레이션을 하나의 확률적 재귀 모델로 결합한다.

방법론

전체 아키텍처: Encoder fenc(x;θ)가 입력 임베딩 ex를 생성하고, z0=(h0,l0)에서 시작해 zt=(ht,lt)로 진행한다. 내부 루프에서 lt,k = fL(ht-1,lt,k-1,ex;θ), k=1..K이며, 외부 루프에서 ut = fH(ht-1,lt;θ), ht = ut + ϵt로 업데이트한다. ϵt ∼ pθ(ϵt|ut) = N(µθ(ut), σθ^2(ut)I) 형태의 상태 의존 가우시안으로 샘플링된다. 디코더는 마지막 상태 zTTotal에서 fdec(zTTotal) = fdec(hTTotal)로 출력을 얻는다. 학습은 ELBO log pθ(y|x) ≥ Eqϕ[log pθ(y|τ,x)] − KL(qϕ(τ|x,y) ∥ pθ(τ|x))의 분해를 따른다(τ는 zt의 연속 경로). 역전파는 메모리 제약을 고려해 각 supervision step의 마지막 전이 z(n)T−1→z(n)T에 대해서만 전파되는 LGRAM surrogate를 사용한다. 추론 시간 확장은 ACT(Adaptive Computation Time)로 깊이를 학습 가능한 halting depth까지 늘리거나 줄일 수 있으며, N개의 경로를 병렬로 샘플링해 최종 후보를 LPRM으로 평가해 선택한다. 무조건적 생성 시에는 입력 임베딩 대신 empty conditioning을 사용하며, Sudoku 무조건 생성 및 MNIST 무조건 생성에서 성능이 확인된다.

주요 결과

주요 벤치마크에서 GRAM은 deterministic RRMs를 일관히 능가한다. Sudoku-Extreme에서 GRAM은 TRM/HRM/Looped TF 대비 높은 정확도와 견고한 성능을 보이며, 예를 들어 16회 반복 시 GRAM은 97.0%의 정확도(320회의 균일 반복 대비 상회)로 TRM의 90.5%를 넘는다. N-Queens(8×8)에서 GRAM은 99.7%의 정확도와 90.3%의 커버리지(경로 1샘플)로 HRM/TRM보다 우수하며, Graph Coloring(8-vertex)에서는 2.7의 충돌 교차를 달성하고 커버리지 85.8%를 기록한다. ARC-AGI 벤치마크에서도 GRAM은 다수의 비교 기법보다 나은 성능을 보이나, ARC-AGI-2에서의 절대 수치는 외부 벤치마크의 한계상 참조치로 제시된다. 무조건적 생성 면에서도 MNIST의 IS는 2.04(256 steps)로 증가하고 FID는 73.34로 개선되며, TRM의 1.00/303.29에 비해 우수한 품질을 보인다. Sudoku 생성에서는 99.05%의 유효도를 달성하며 16 steps에서 D3PM-Uniform(Big) 대비 우월한 성능을 기록한다. 추가 ablation에서 SG(Stochastic Guidance)와 DS(Deep Supervision) 조합이 GRAM의 성능 향상에 핵심적임이 확인된다. 또한 Nsamples(N) 확장을 통해 추론 시 병렬 샘플링으로 깊이 기반 확장 없이도 성능을 크게 끌어올릴 수 있음을 보여준다.

기술 상세

아키텍처: Encoder fenc, Recursive Core(h,l)로 구성된 이중 잠재 상태. K회의 low-level 업데이트 fL를 먼저 수행하고, 그 후 High-level 업데이트 fH로 ut를 계산한 뒤 ϵt를 더해 ht를 얻고, zt=(ht,lt). ϵt는 ut에 조건화된 가우시안으로 정의되며, 평균 µθ(ut)와 분산 σθ^2(ut)로 구성된다. 무조건적 생성 시 입력은 empty로 처리되며 pθ(y|x)와 pθ(x)을 모두 모델링한다. 학습은 ELBO를 최적화하고, Trajectory 전체를 샘플링하는 qϕ와 pθ의 Markov 프로세스로 정의된 KL-terms를 사용한다. SEM에서의 계층적 구조(h,l)와 확률적 노이즈 도입으로 다양한 추론 경로를 학습한다. ACT를 통해 각 경로가 도달하는 halting depth를 학습 가능하게 하며, LPRM(vψ)을 통해 각 경로의 최종 예측 품질을 예측한다.

한계점

논문은 GRAM의 학습 효율성에 한계가 있음을 인정한다. 깊이가 높은 경우의 학습 비용과, 대규모 foundation 모델로의 직접 확장은 아직 어려움이 있으며, 훈련 시 심층 감독 신호에 의존하는 경향이 존재한다.

실무 활용

구조적 추론 및 다중 해 탐색이 필요한 문제에 적용 가능하다. GRAM은 재귀 추론의 깊이 확장과 더불어 샘플링된 다중 경로를 병렬로 탐색해 더 안정적이고 다양한 해를 찾아낸다.

Constraint propagation이 중심인 퍼즐/그래프 문제의 솔루션 다변성 탐색
무조건적 생성에서 다양한 샘플 경로를 통한 품질 개선
적은 파라미터의 재귀 네트워크를 활용한 적은 연산 예산에서의 다중 해 탐색

코드 공개 여부: 미확인

키워드

GRAMGenerative Recursive Reasoning Modelslatent-state refinementamortized variational inferenceprobabilistic latent trajectorymultimodal reasoningwidth-based inference-time scaling

용어 해설

latent-variable model: — 확률적 잠재 공간에서의 상태 변화를 통해 복수의 가능한 추론 경로를 표현하는 모델. 이를 통해 불확실성 및 다중 해를 다룰 수 있다.