루프를 해결하는 Attractor Models: 언어 처리와 추론을 위한 새로운 접근

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

Transformer의 단일 패스 출력에 의존하던 기존 구조와 달리, Attractor Models은 출력 임베딩 공간에서 고정점을 찾는 방식으로 반복-refinement을 학습한다. 학습 시 기억 용량은 고정되어 커지지 않으며, 필요한 반복 수는 수렴 정도에 따라 적응적으로 결정된다. 이로써 large-scale language modeling과 작은 모델의 hard reasoning에서 Pareto 효율성을 달성하고, 테스트 시 불필요한 반복을 제거하는 방향으로 동작한다.

왜 중요한가

Transformer의 단일 패스 출력에 의존하던 기존 구조와 달리, Attractor Models은 출력 임베딩 공간에서 고정점을 찾는 방식으로 반복-refinement을 학습한다. 학습 시 기억 용량은 고정되어 커지지 않으며, 필요한 반복 수는 수렴 정도에 따라 적응적으로 결정된다. 이로써 large-scale language modeling과 작은 모델의 hard reasoning에서 Pareto 효율성을 달성하고, 테스트 시 불필요한 반복을 제거하는 방향으로 동작한다.

핵심 기여

Backbone + Attractor의 이원적Refinement 아키텍처

Backbone 모듈이 초기 출력 임베딩 ỹ0를 제안하고, Attractor 모듈이 고정점 해 y⋆를 구하는 프로세스를 도입한다. y⋆는 Aθa(·, ỹ0) = Tθa(ỹ, ỹ0) − ỹ를 0으로 두고 RootFind로 해를 찾는 방식으로 얻는다.

고정점 기반 학습으로 메모리 및 compute 절감

역전파는 암시적 함수 이론과 1-step 근사(u ≈ v)로 계산되며, forward의 반복 수에 비례하는 메모리 증가가 없다. 이로써 학습 메모리는 O(1)이며, 총 training FLOPs도 25–31% 감소한다.

Equilibrium Internalization 현상 발견

훈련 중 백본의 ỹ0가 고정점에 근접하게 되어, 추론 시 solver를 거의 쓰지 않아도 된다. 이로써 학습 시의 iterative 편도가 추론 시 정지 상태로 내재화된다.

대규모 LM과 소형 모델의 강인한 성능 향상

140M/370M/770M 매개변수에서 Transformer/Parcae 대비 우수한 perplexity와 CORE(Core/CORE-Extended) 점수를 달성한다. 770M은 1.3B Transformer와 동급 또는 그 이상으로 평가되며, 27M 파라미터의 작은 모델도 Sudoku-Extreme에서 91.4%, Maze-Hard에서 93.1%를 달성했다.

테스트 시점의 적응적 solver와 안정성

수렴 잔차 ε와 최대 반복 Tmax에 의해 solver의 단계 수가 결정되므로, inference 시점에서 train과 다른 그래프를 사용할 위험이 감소한다. Anderson acceleration 사용으로 수렴 속도가 빨라진다.

핵심 아이디어 이해하기

출력 임베딩 공간에서 고정점 문제를 정의하는 두-모듈 구조를 통해, 반복-refinement를 학습 과정에서 안정적으로 다룬다. Backbone은 입력으로부터 의미 있는 ỹ0를 제안하고, Attractor 모듈은 ỹ0를 시작점으로 삼아 고정점 y⋆를 찾는다. 역전파는 y⋆와 ỹ0의 의존성을 암시적 미분으로 처리하며, 메모리는 고정된 상태를 유지하고 테스트 시점에는 필요한 solver의 수를 epsilon로 제어한다. Equilibrium Internalization 현상으로 초기 예측이 고정점에 근접하게 되어 테스트 시점에서 추가 반복이 거의 필요 없어지며, 학습과 추론의 효율이 동시에 향상된다.

방법론

전체 접근은 Backbone + Attractor의 이원 구조를 통해 고정점 문제를 해결하는 방식이다. forward에서 ỹ0 = Tθb(E(x))로 초기 예측을 만들고, Attractor 모듈은 ỹt+1 = Tθa(ỹt, ỹ0)를 반복하여 y⋆를 근사한다. 유의점은 RootFind를 사용해 고정점을 찾고, Aθa(ỹ, ỹ0) := Tθa(ỹ, ỹ0) − ỹ로 정의한다. 수렴 조건은 ∥Δỹ∥ < ε 또는 Tmax에 의해 종료한다. 역전파는 implicit differentiation으로 ∂L/∂θ = u^T ∂Tθa/∂θ를 계산하며, 보통 one-step 근사(u ≈ v)를 사용해 메모리 사용량을 제로에 가깝게 유지한다. 학습 objective는 다음-토큰 예측의 cross-entropy를 사용하고, 추론 시에도 같은 equilibrium 계산을 재사용한다. training의 메모리 사용은 forward의 solver 수에 영향을 받지 않으며, 테스트 시에는 ε와 Tmax를 조정해 계산 예산을 제어할 수 있다.

주요 결과

대규모 언어 모델링에서 Attractor Model은 140M/370M/770M 매개변수에서 점진적으로 성능을 향상시키며, Lambada, CORE, CORE-Extended에서 파레토 개선을 보인다. 140M에서 Val. PPL은 18.30, Lambada PPL은 68.02, Core는 14.59, Core-Extended는 10.03이다. 370M에서 Val. PPL은 14.03, Lambada PPL은 27.14, Core는 20.24, Core-Extended는 12.64이다. 770M에서 Val. PPL은 12.09, Lambada PPL은 15.21, Core는 26.83, Core-Extended는 15.42다. 동일 데이터/토큰 예산에서 Transformer 대비 Pareto 향상을 보이며, 770M Attractor Model은 1.3B Transformer와 비교해도 비슷하거나 더 나은 결과를 보인다. Hard reasoning 태스크(Sudoku-Extreme, Maze-Hard)에서도 27M 파라미터에서 Sudoku-Extreme 91.4%, Maze-Hard 93.1%를 달성하며, 0%로 실패하는 프런티어 모델보다 더 견고하게 확장된다. Training 측면에서 25–31%의 FLOPs 절감과 O(1) 메모리 특성이 확인되며, solver가 필요한 경우도 대부분 1–8단계 이내에서 수렴한다. Equilibrium Internalization 현상이 관찰되며, 테스트 시 T=1 또는 T=0에서도 이미 converged에 가까운 성능이 나타난다.

기술 상세

Attractor Models은 two-stage 구조로 구성된다. x를 E(x)로 매핑해 입력 임베딩을 얻고 ỹ0 = Tθb(E(x))로 초기 예측 임베딩을 생성한다. 그다음, ỹt+1 = Tθa(ỹt, ỹ0)로 반복-refinement를 수행해 고정점 ỹ⋆를 얻고, ỹ⋆E⊤를 통해 확률 분포를 디코딩한다. 역전파는 Aθa(·, ỹ0) = Tθa(ỹ, ỹ0) − ỹ를 이용해 RootFind로 ỹ⋆를 구하는 과정에서 Implicit Function Theorem을 적용한다. 구체적으로 ∂L/∂θ = u^⊤ ∂Tθa(ỹ⋆, ỹ0)/∂θ이며, 보통 one-step 근사로 계산해 메모리 사용을 상수로 유지한다. 이때 ỹ0는 backbone 제안으로부터 가져오고, ỹ⋆는 E⊤로 디코딩된다. Backbone이 더 큰 용량을 가져도, equilibrium은 출력 임베딩 공간에 존재하므로 고정점은 solver의 반복 수가 늘어나도 유지된다. 초기화는 ỹ0에서 시작하도록 설계되어 DEQ와 차별화된다. 학습 목표는 표준 next-token prediction의 크로스 엔트로피이며, 테스트 시점도 같은 equilibrium 계산을 재사용한다. 실험적으로 Anderson acceleration으로 수렴 속도를 높이고, ε와 Tmax에 따라 solver의 수를 제어한다. 이 구조는 고정점의 well-posedness를 보장하는 contraction 조건(Assumption 1)을 필요로 하며, 그 조건은 로컬적일 수 있다.

한계점

Assumption 1은 로컬 수축성으로, 임의의 학습된 Transformer 블록에 항상 성립하지는 않는다. 또한 고정점 해가 항상 안정적으로 존재하고 수렴하리라는 보장은 로컬 성질에 의존하므로, 특정 구성에서 수렴이 보장되지 않을 수 있다.

실무 활용

Attractor Models은 반복-refinement를 효율적으로 학습하고 추론 시 적은 수의 solver로도 높은 성능을 달성한다. 대규모 언어 모델링에서 비용과 메모리 효율성의 개선을 제공한다.

대규모 언어 모델링에서 학습-추론 비용을 줄이고 Pareto 효율성을 달성하는 애플리케이션
작은 모델의 추론 능력 향상을 위한 하드 추론 작업( Sudoku, Maze 등 )
적응적 반복 깊이가 필요한 파이프라인에서 비용 예산에 따라 solver 수를 조정하는 서비스

코드 공개 여부: 공개

코드 저장소 보기

키워드

Attractor Models(Attractor 모델)fixed-point(고정점)implicit differentiation(암시 미분)equilibrium internalization(평형 내재화)backbone module(Backbone 모듈)anderson acceleration(앤더슨 가속)