핵심 요약
기존의 고성능 시각 생성 모델들은 수많은 고유 레이어를 쌓아 메모리 점유율이 매우 높았다. 이 논문은 동일한 레이어를 반복 사용하는 Looping 구조와 새로운 증류 학습법을 통해, 적은 파라미터로도 연산량에 비례하는 고품질 결과물을 내놓으며 장치 성능에 맞춰 생성 품질을 조절할 수 있는 유연성을 제공한다.
왜 중요한가
기존의 고성능 시각 생성 모델들은 수많은 고유 레이어를 쌓아 메모리 점유율이 매우 높았다. 이 논문은 동일한 레이어를 반복 사용하는 Looping 구조와 새로운 증류 학습법을 통해, 적은 파라미터로도 연산량에 비례하는 고품질 결과물을 내놓으며 장치 성능에 맞춰 생성 품질을 조절할 수 있는 유연성을 제공한다.
핵심 기여
Elastic Looped Transformers (ELT) 아키텍처
가중치를 공유하는 트랜스포머 블록을 반복적으로 적용하여 파라미터 수를 획기적으로 줄이면서도, 반복 횟수에 따라 생성 품질이 선형적으로 향상되는 재귀적 구조를 구현했다.
Intra-Loop Self Distillation (ILSD) 학습법
최대 반복 횟수를 수행한 상태를 Teacher로 설정하고 중간 단계의 출력을 Student로 삼아 학습시키는 방식을 통해, 모델이 어느 단계에서 멈추더라도 유의미한 결과물을 생성할 수 있도록 보장한다.
Any-Time Inference 기능 구현
단 한 번의 학습으로 리소스 상황에 따라 반복 횟수를 조절하여 속도와 품질 사이의 트레이드오프를 실시간으로 선택할 수 있는 탄력적 추론 능력을 확보했다.
핵심 아이디어 이해하기
일반적인 Transformer 모델은 깊이가 깊어질수록 각 레이어마다 고유한 가중치를 가져야 하므로 모델 크기가 비대해진다. 이는 고해상도 이미지나 비디오 생성 시 메모리 병목 현상을 일으키며, 특정 깊이로 고정된 모델은 추론 시 연산량을 조절하기 어렵다는 한계가 있다.
ELT는 '동일한 연산 블록을 여러 번 반복해도 점진적인 정교화가 가능하다'는 아이디어에서 출발한다. 마치 사람이 그림을 그릴 때 같은 붓으로 여러 번 덧칠하며 디테일을 살리는 것과 유사하게, 하나의 Transformer 블록을 재귀적으로 통과시켜 데이터를 정제한다. 이때 핵심은 반복 횟수가 달라져도 출력이 깨지지 않게 만드는 것이다.
이를 위해 ILSD라는 기법을 도입하여, 모델이 8번 반복했을 때의 정답을 2번이나 4번 반복했을 때도 미리 예측하도록 유도한다. 그 결과, 연산 자원이 부족할 때는 적게 반복하여 빠르게 결과를 내고, 자원이 풍부할 때는 더 많이 반복하여 고화질 이미지를 얻는 탄력적인 운용이 가능해진다.
관련 Figure

표준 모델은 마지막 루프에서만 정답 공간에 도달하지만, ELT는 중간 단계(L_int)에서도 정답 공간을 향해 궤적이 유도된다. 이 메커니즘이 조기 종료 시에도 유의미한 출력을 가능하게 하는 핵심 원리임을 설명한다.
표준 모델과 ELT의 잠재 공간 궤적 비교 다이어그램
방법론
ELT는 N개의 고유 레이어로 구성된 복합 블록 g_θ를 정의하고, 이를 L번 반복 적용하여 총 깊이 D = N × L을 형성한다. 입력 x에 대해 g_θ(g_θ(...g_θ(x)...))와 같이 연산하며, 이는 물리적 파라미터 수는 N개 레이어 분량으로 유지하면서 계산상의 깊이만 확장하는 방식이다.
ILSD(Intra-Loop Self Distillation) 학습 과정은 Teacher-Student 구조를 단일 모델 내에서 구현한다. 최대 반복 횟수인 L_max를 Teacher 경로로 설정하고, 무작위로 선택된 중간 반복 횟수 L_int를 Student 경로로 설정한다. [L_int 단계의 출력값 → Ground-truth 및 Teacher의 L_max 출력값과 비교 → 손실 함수 계산] 과정을 거쳐 중간 단계에서도 최종 단계에 근접한 표현력을 갖추도록 강제한다.
손실 함수는 Masked Generative Model의 경우 Cross-Entropy를 사용하며, Diffusion Model의 경우 Sigmoid-weighted MSE를 적용한다. 학습 초기에는 Ground-truth에 집중하다가 점차 Teacher의 예측치를 모방하도록 λ 값을 선형적으로 감소시키는 커리큘럼 학습을 채택하여 학습 안정성을 높였다.
주요 결과
ImageNet 256x256 클래스 조건부 이미지 생성 실험에서 ELT-XL 모델은 파라미터 수를 4배 줄였음에도 불구하고 MaskGIT-XL과 동일한 2.0의 FID를 달성했다. 또한 UCF-101 비디오 생성 벤치마크에서도 72.8의 FVD를 기록하며 기존 MAGVIT 대비 우수한 효율성을 입증했다.
효율성 측면에서 ELT는 공유 파라미터가 칩 내부 메모리(SRAM)에 상주할 가능성이 높아져, HBM과 SRAM 사이의 데이터 전송 병목을 줄임으로써 최대 3.5배의 처리량(Throughput) 향상을 보였다. 특히 데이터가 제한된 환경에서 루프 구조가 일종의 정규화 역할을 수행하여 과적합에 강한 모습을 보였다.
관련 Figure

일반적인 루프 모델은 학습된 특정 횟수(L=8)에서만 이미지가 선명하지만, ELT는 ILSD 덕분에 L=2부터 L=10까지 모든 구간에서 일관되게 고품질 이미지를 생성함을 보여준다. 이는 Any-Time Inference의 실효성을 시각적으로 증명한다.
ELT와 일반 루프 트랜스포머의 반복 횟수별 이미지 생성 품질 비교
기술 상세
ELT 아키텍처는 물리적 모델 크기와 계산 깊이를 분리(Decoupling)하는 것이 핵심이다. 이는 하드웨어의 'Memory Wall' 문제를 해결하기 위한 구조적 선택으로, 파라미터 풋프린트를 최소화하여 온칩 메모리 활용도를 극대화한다.
ILSD는 기존의 Deep Equilibrium Models(DEQ)가 고정점을 찾기 위해 블랙박스 솔버에 의존하던 것과 달리, 명시적으로 언롤링된 중간 상태들을 최적화한다. 이는 추론 시 임의의 지점에서 조기 종료(Early Exit)가 가능하게 하며, 실험 결과 학습 시 경험하지 못한 더 깊은 루프 횟수(L > L_max)로 확장했을 때도 품질이 유지되는 외삽(Extrapolation) 능력을 보여주었다.
한계점
고유 레이어 수(N)가 너무 적은 경우(예: 1개 레이어만 반복)에는 반복 횟수와 상관없이 모델의 표현 용량 자체가 부족하여 성능이 저하된다. 또한 추론 시 반복 횟수 L이 학습 시의 L_max를 크게 초과할 경우, 공유 블록이 수렴 범위를 벗어나면서 품질이 급격히 떨어질 수 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.