TL;DR
Transformer의 단일 패스 출력에 의존하던 기존 구조와 달리, Attractor Models은 출력 임베딩 공간에서 고정점을 찾는 방식으로 반복-refinement을 학습한다. 학습 시 기억 용량은 고정되어 커지지 않으며, 필요한 반복 수는 수렴 정도에 따라 적응적으로 결정된다. 이로써 large-scale language modeling과 작은 모델의 hard reasoning에서 Pareto 효율성을 달성하고, 테스트 시 불필요한 반복을 제거하는 방향으로 동작한다.
왜 중요한가
Transformer의 단일 패스 출력에 의존하던 기존 구조와 달리, Attractor Models은 출력 임베딩 공간에서 고정점을 찾는 방식으로 반복-refinement을 학습한다. 학습 시 기억 용량은 고정되어 커지지 않으며, 필요한 반복 수는 수렴 정도에 따라 적응적으로 결정된다. 이로써 large-scale language modeling과 작은 모델의 hard reasoning에서 Pareto 효율성을 달성하고, 테스트 시 불필요한 반복을 제거하는 방향으로 동작한다.
핵심 기여
Backbone + Attractor의 이원적Refinement 아키텍처
Backbone 모듈이 초기 출력 임베딩 ỹ0를 제안하고, Attractor 모듈이 고정점 해 y⋆를 구하는 프로세스를 도입한다. y⋆는 Aθa(·, ỹ0) = Tθa(ỹ, ỹ0) − ỹ를 0으로 두고 RootFind로 해를 찾는 방식으로 얻는다.
고정점 기반 학습으로 메모리 및 compute 절감
역전파는 암시적 함수 이론과 1-step 근사(u ≈ v)로 계산되며, forward의 반복 수에 비례하는 메모리 증가가 없다. 이로써 학습 메모리는 O(1)이며, 총 training FLOPs도 25–31% 감소한다.
Equilibrium Internalization 현상 발견
훈련 중 백본의 ỹ0가 고정점에 근접하게 되어, 추론 시 solver를 거의 쓰지 않아도 된다. 이로써 학습 시의 iterative 편도가 추론 시 정지 상태로 내재화된다.
대규모 LM과 소형 모델의 강인한 성능 향상
140M/370M/770M 매개변수에서 Transformer/Parcae 대비 우수한 perplexity와 CORE(Core/CORE-Extended) 점수를 달성한다. 770M은 1.3B Transformer와 동급 또는 그 이상으로 평가되며, 27M 파라미터의 작은 모델도 Sudoku-Extreme에서 91.4%, Maze-Hard에서 93.1%를 달성했다.
테스트 시점의 적응적 solver와 안정성
수렴 잔차 ε와 최대 반복 Tmax에 의해 solver의 단계 수가 결정되므로, inference 시점에서 train과 다른 그래프를 사용할 위험이 감소한다. Anderson acceleration 사용으로 수렴 속도가 빨라진다.
핵심 아이디어 이해하기
출력 임베딩 공간에서 고정점 문제를 정의하는 두-모듈 구조를 통해, 반복-refinement를 학습 과정에서 안정적으로 다룬다. Backbone은 입력으로부터 의미 있는 ỹ0를 제안하고, Attractor 모듈은 ỹ0를 시작점으로 삼아 고정점 y⋆를 찾는다. 역전파는 y⋆와 ỹ0의 의존성을 암시적 미분으로 처리하며, 메모리는 고정된 상태를 유지하고 테스트 시점에는 필요한 solver의 수를 epsilon로 제어한다. Equilibrium Internalization 현상으로 초기 예측이 고정점에 근접하게 되어 테스트 시점에서 추가 반복이 거의 필요 없어지며, 학습과 추론의 효율이 동시에 향상된다.
방법론
전체 접근은 Backbone + Attractor의 이원 구조를 통해 고정점 문제를 해결하는 방식이다. forward에서 ỹ0 = Tθb(E(x))로 초기 예측을 만들고, Attractor 모듈은 ỹt+1 = Tθa(ỹt, ỹ0)를 반복하여 y⋆를 근사한다. 유의점은 RootFind를 사용해 고정점을 찾고, Aθa(ỹ, ỹ0) := Tθa(ỹ, ỹ0) − ỹ로 정의한다. 수렴 조건은 ∥Δỹ∥ < ε 또는 Tmax에 의해 종료한다. 역전파는 implicit differentiation으로 ∂L/∂θ = u^T ∂Tθa/∂θ를 계산하며, 보통 one-step 근사(u ≈ v)를 사용해 메모리 사용량을 제로에 가깝게 유지한다. 학습 objective는 다음-토큰 예측의 cross-entropy를 사용하고, 추론 시에도 같은 equilibrium 계산을 재사용한다. training의 메모리 사용은 forward의 solver 수에 영향을 받지 않으며, 테스트 시에는 ε와 Tmax를 조정해 계산 예산을 제어할 수 있다.
관련 Figure

Backbone이 초기 제안을 만들고, Attractor 모듈이 고정점으로 수렴하는 흐름을 시각적으로 제시한다. Attractor의 solver가 학습 시 결정되며, 고정점 해를 디코딩하는 흐름과 차별화를 강조한다.
Looped Language Models vs Attractor Models 아키텍처 비교 다이어그램.

Figure 3은 두 모듈의 연결 및 고정점 해의 흐름을 한 눈에 보여주며, how-to에 가깝게 구성요소를 요약한다.
Attractor Models의 아키텍처 개요: Input Embedding → Backbone → Attractor → Output

DEQ와 달리 Attractor Model은 훈련 중에 solver의 필요 횟수를 빠르게 최소로 수렴시키고 안정성을 보인다. Equilibrium Internalization의 시각적 지표를 제공한다.
Solver iterations during training 및 convergence 비교
주요 결과
대규모 언어 모델링에서 Attractor Model은 140M/370M/770M 매개변수에서 점진적으로 성능을 향상시키며, Lambada, CORE, CORE-Extended에서 파레토 개선을 보인다. 140M에서 Val. PPL은 18.30, Lambada PPL은 68.02, Core는 14.59, Core-Extended는 10.03이다. 370M에서 Val. PPL은 14.03, Lambada PPL은 27.14, Core는 20.24, Core-Extended는 12.64이다. 770M에서 Val. PPL은 12.09, Lambada PPL은 15.21, Core는 26.83, Core-Extended는 15.42다. 동일 데이터/토큰 예산에서 Transformer 대비 Pareto 향상을 보이며, 770M Attractor Model은 1.3B Transformer와 비교해도 비슷하거나 더 나은 결과를 보인다. Hard reasoning 태스크(Sudoku-Extreme, Maze-Hard)에서도 27M 파라미터에서 Sudoku-Extreme 91.4%, Maze-Hard 93.1%를 달성하며, 0%로 실패하는 프런티어 모델보다 더 견고하게 확장된다. Training 측면에서 25–31%의 FLOPs 절감과 O(1) 메모리 특성이 확인되며, solver가 필요한 경우도 대부분 1–8단계 이내에서 수렴한다. Equilibrium Internalization 현상이 관찰되며, 테스트 시 T=1 또는 T=0에서도 이미 converged에 가까운 성능이 나타난다.
관련 Figure

해당 도표는 대규모 LM에서 Attractor Model이 더 적은 compute로 더 나은 perplexity를 달성함을 시각적으로 보여준다. 이는 학습 효율성과 성능의 Pareto 개선을 뒷받침한다.
Pareto Frontier: Test Perplexity vs. Training Compute 차트. Attractor Model은 다양한 크기에서 Transformer 대비 비용 절감과 성능 향상을 함께 달성한다.

수렴하는 고정점에 의한 평균 깊이가 줄고, 역전파에서 one-step IFT를 사용해 메모리가 증가하지 않음을 수치적으로 보여준다.
Training-time efficiency: 25–31% FLOPs 감소 및 O(1) 메모리 유지 그래프

Attractor Model은 반복 깊이가 증가해도 메모리 사용이 거의 일정하며, Parcae는 반복 깊이에 따라 메모리 증가가 있음을 보인다. 이는 O(1) 메모리의 실질적 이점을 시각화한다.
Peak training memory vs. recurrent depth 그래프
기술 상세
Attractor Models은 two-stage 구조로 구성된다. x를 E(x)로 매핑해 입력 임베딩을 얻고 ỹ0 = Tθb(E(x))로 초기 예측 임베딩을 생성한다. 그다음, ỹt+1 = Tθa(ỹt, ỹ0)로 반복-refinement를 수행해 고정점 ỹ⋆를 얻고, ỹ⋆E⊤를 통해 확률 분포를 디코딩한다. 역전파는 Aθa(·, ỹ0) = Tθa(ỹ, ỹ0) − ỹ를 이용해 RootFind로 ỹ⋆를 구하는 과정에서 Implicit Function Theorem을 적용한다. 구체적으로 ∂L/∂θ = u^⊤ ∂Tθa(ỹ⋆, ỹ0)/∂θ이며, 보통 one-step 근사로 계산해 메모리 사용을 상수로 유지한다. 이때 ỹ0는 backbone 제안으로부터 가져오고, ỹ⋆는 E⊤로 디코딩된다. Backbone이 더 큰 용량을 가져도, equilibrium은 출력 임베딩 공간에 존재하므로 고정점은 solver의 반복 수가 늘어나도 유지된다. 초기화는 ỹ0에서 시작하도록 설계되어 DEQ와 차별화된다. 학습 목표는 표준 next-token prediction의 크로스 엔트로피이며, 테스트 시점도 같은 equilibrium 계산을 재사용한다. 실험적으로 Anderson acceleration으로 수렴 속도를 높이고, ε와 Tmax에 따라 solver의 수를 제어한다. 이 구조는 고정점의 well-posedness를 보장하는 contraction 조건(Assumption 1)을 필요로 하며, 그 조건은 로컬적일 수 있다.
한계점
Assumption 1은 로컬 수축성으로, 임의의 학습된 Transformer 블록에 항상 성립하지는 않는다. 또한 고정점 해가 항상 안정적으로 존재하고 수렴하리라는 보장은 로컬 성질에 의존하므로, 특정 구성에서 수렴이 보장되지 않을 수 있다.
실무 활용
Attractor Models은 반복-refinement를 효율적으로 학습하고 추론 시 적은 수의 solver로도 높은 성능을 달성한다. 대규모 언어 모델링에서 비용과 메모리 효율성의 개선을 제공한다.
- 대규모 언어 모델링에서 학습-추론 비용을 줄이고 Pareto 효율성을 달성하는 애플리케이션
- 작은 모델의 추론 능력 향상을 위한 하드 추론 작업( Sudoku, Maze 등 )
- 적응적 반복 깊이가 필요한 파이프라인에서 비용 예산에 따라 solver 수를 조정하는 서비스
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.