TL;DR
LLM은 파라미터 업데이트를 통해 task-specific 정보를 흡수하면 기존 일반화가 손상될 수 있다. 반대로 in-context learning은 파라미터를 바꾸지 않아도 적응 가능하지만 성능은 한계가 있다. Fast-Slow Training은 fast weights를 통한 컨텍스트 학습으로 task-specific 정보를 빠르게 축적하되 slow weights는 base 모델의 지식을 유지하여 catastrophic forgetting을 줄이고, 새로운 태스크에 대한 적응력을 높인다. 이로써 샘플 효율성과 Plasticity를 동시에 개선한다.
왜 중요한가
LLM은 파라미터 업데이트를 통해 task-specific 정보를 흡수하면 기존 일반화가 손상될 수 있다. 반대로 in-context learning은 파라미터를 바꾸지 않아도 적응 가능하지만 성능은 한계가 있다. Fast-Slow Training은 fast weights를 통한 컨텍스트 학습으로 task-specific 정보를 빠르게 축적하되 slow weights는 base 모델의 지식을 유지하여 catastrophic forgetting을 줄이고, 새로운 태스크에 대한 적응력을 높인다. 이로써 샘플 효율성과 Plasticity를 동시에 개선한다.
핵심 기여
Fast-Slow Training(FST) 프레임워크 제안
모델 파라미터를 slow weights로 두고, 컨텍스트를 fast weights로 간주하는 학습 프레임워크를 제안한다. fast weights는 텍스트 피드백으로 task-specific 정보를 흡수하고, slow weights는 base 모델의 일반화 능력을 유지한다.
샘플 효율성 대폭 향상
FST는 reasoning 태스크에서 RL만 학습하는 방식과 비교해 최대 약 3x 더 높은 샘플 효율성을 달성한다.
낮은 KL 발산으로 인한 지속성 증가
FST-학습 모델은 base 모델에 대한 KL 발산이 최대 70%까지 감소하여 plasticity를 보존하고, 파라미터만 학습하는 RL에 비해 기억 손실을 줄인다.
Continual Learning 시나리오에서의 적응성
태스크가 바뀌는 Continual Learning 상황에서 FST는 새로운 태스크를 지속적으로 습득하는 반면, 파라미터만 학습하는 방법은 학습이 정체된다.
fast-context 업데이트의 효과
fast context는 텍스트 피드백으로 빠르게 업데이트되어 task-specific 정보를 축적하고, slow weights의 일반화 능력을 유지하는 방식으로 작동한다.
핵심 아이디어 이해하기
출발점: Transformer의 Self-Attention은 입력 길이에 비례한 계산복잡도로 긴 시퀀스에서 비용이 커진다. 기존 학습 방식은 파라미터 업데이트를 통해 task 정보를 흡수하는 반면, in-context learning은 파라미터 변경 없이 적응하는 한계가 있다. 해결 원리: FST는 slow weights와 fast weights의 이중 구성을 통해 두 가지 학습 특성을 결합한다. fast weights는 텍스트 피드백으로 task-specific 정보를 저장하고, slow weights는 base 모델의 일반화된 지식과 성능을 보존한다. 달라지는 점: 샘플 효율성 증가, KL 발산 감소, 그리고 새로운 태스크에 대한 적응력 증가가 나타난다.
방법론
단락1: 전체 접근 방식은 slow weights와 fast weights를 분리하여 학습하는 하이브리드 프레임워크이다. 입력은 컨텍스트 프롬프트와 함께 모델 파라미터를 구성한다. 단락2: 핵심 메커니즘은 Context Pool(빠른 컨텍스트를 저장하는 저장소)와 Rollouts를 통한 피드백에 기반한 fast weights 업데이트이다. 입력 → 컨텍스트 프롬프트 생성 → fast weights 업데이트 → 출력. 단락3: 학습 전략은 텍스트 피드백에 의한 gradient descent 기반 업데이트로, slow weights 업데이트와 fast weights 업데이트를 분리해 수행한다. 단락4: 이론적 기반은 in-context learning과 parameter-efficient 학습 사이의 트레이드오프를 완화하는 프레임워크로, task 간 drift를 줄이고 적응성을 유지한다.
관련 Figure

아키텍처 구성이 빠른 컨텍스트 업데이트와 느린 파라미터 업데이트의 상호작용을 보여주며, FST의 동작 원리를 직관적으로 이해시키는 도표다.
Model Architecture: Slow Weight Update, Rollouts, Fast Context Update 구성 요소를 시각화

트레이닝 리워드 증가와 그래디언트 노름 변화를 통해 FST가 안정적인 학습 흐름과 빠른 컨텍스트 학습의 이점을 보여준다.
Training reward과 Gradient norm 변화: RL vs FST
주요 결과
메인 벤치마크 결과: CodeO, Math(Polaris), HoVer-hard, HoVer 등에서 FST가 RL 대비 개선을 보였으나, CodeO에서는 RL이 더 높은 OOD 평균 성능을 보인 경우도 있었다. 예를 들어 CodeO의 OOD_avg은 Base 41.0, RL 51.1, FST 49.7로 RL이 우수했다. HoVer의 OOD_avg은 Base 26.9, RL 36.2, FST 36.5로 FST가 RL보다 약간 우세했다. Math(Polaris)의 OOD_avg은 RL과 FST가 각각 36.2와 36.5로 비슷하나, 상황에 따라 FST가 더 나은 일반화 성질을 보였다. HoVer-hard의 최종 성능은 Base 47.5, RL 48.3, FST 48.4로 FST가 가장 높은 값에 근접했다. 전반적으로 FST는 샘플 효율성 및 메타-성능의 개선 여지를 보였고, 특정 도메인에서 로버스트한 개선을 확인할 수 있다.
관련 Figure

FST의 샘플 효율성을 시각적으로 확인할 수 있는 그림으로, 학습 데이터가 적을 때도 빠른 수렴과 높은 성능을 보여준다.
Training 샘플 수에 따른 평가 정확도 비교: FST가 RL보다 빠르게 수렴하며 성능 우위가 나타난다.

Fast-Slow Training 초기 조건에 따른 적응성 차이를 보여주며, FST init가 종합적으로 더 높은 적응 성능을 나타낼 수 있음을 시사한다.
Continual Learning: Plasticity에서 Base init, RL init, FST init의 최종 평가 정확도 비교

Fast context 업데이트를 통한 유지성 향상을 시각화하며, KL 발산의 감소와 함께 Forgetting 감소에 기여하는지를 확인 가능하다.
Continual Learning: Forgetting 비교 - New Task에 대한 성능 유지

다중 도메인에서 FST의 일반화 성능이 도메인별 차이를 보이나, HoVer/Polaris 영역에서 우수한 성능 향상을 확인한다.
CodeO / Math(Polaris) / HoVer-hard의 OOD Avg 비교: RL vs FST

학습 스텝에 따른 검증 정확도 추세를 보여주며, FST가 특정 스텝에서 RL 대비 더 나은 수렴을 보임을 시사한다.
Validation curves: HoVer 연구에서 RL과 FST의 학습 곡선 비교
기술 상세
단락1: 전체 아키텍처 구조는 Trainable Parameters(모델 θ)와 Context Pool(Φ)을 중심으로, Slow Weight(θ)와 Fast Weight(Φ)의 이중 구성으로 구성된다. 단락2: 핵심 수학 기반은 fast-context 업데이트를 위한 gradient descent 기반의 피드백 학습이며, Rollouts를 통해 목표를 달성한다. 단락3: Prior work 대비 차별점은 in-context learning과 parameter-full 학습의 트레이드오프를 하나의 프레임워크에서 모두 다루는 점이다. 단락4: 구현 및 학습 세부사항은 컨텍스트 프롬프트의 형식, 빠른 업데이트 주기, 다양한 태스크에 대한 순차 학습 전략 등으로 구성되어 있다.
실무 활용
FST는 파라미터를 대폭 수정하지 않으면서 task-specific 적응을 가능하게 하므로, 대형 언어 모델의 실무 적용에서 파라미터 효율적인 파인튜닝과 직관적 컨텍스트 조합의 장점을 동시에 활용할 수 있다.
- RAG 파이프라인에서 빠른 프롬프트 업데이트를 통해 도메인 적응 비용을 줄이는 경우
- 다수의 태스크를 순차적으로 학습하는 환경에서 Catastrophic Forgetting 감소를 목표로 하는 시나리오
- 컨텍스트 프롬프트를 통해 파인튜닝 없이 태스크 특화 성능 개선이 필요한 애플리케이션
- 장기 대화형 시스템에서 빠른 컨텍스트 업데이트로 새로운 주제에 신속 적응
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.