핵심 요약
기존의 지속적 학습 모델들이 20개 내외의 적은 작업 수에서만 검증되었던 한계를 극복하고, 300개 이상의 방대한 작업 시퀀스에서도 성능 저하 없이 학습할 수 있는 확장성을 증명했다. 이는 실제 환경처럼 끊임없이 새로운 정보가 유입되는 상황에서 AI가 지식을 누적하며 성장할 수 있는 발판을 마련했다.
왜 중요한가
기존의 지속적 학습 모델들이 20개 내외의 적은 작업 수에서만 검증되었던 한계를 극복하고, 300개 이상의 방대한 작업 시퀀스에서도 성능 저하 없이 학습할 수 있는 확장성을 증명했다. 이는 실제 환경처럼 끊임없이 새로운 정보가 유입되는 상황에서 AI가 지식을 누적하며 성장할 수 있는 발판을 마련했다.
핵심 기여
CaRE 아키텍처 제안
Bi-Level Routing Mixture-of-Experts(BR-MoE)를 핵심으로 하여, 수백 개의 작업 시퀀스에서도 안정성과 가소성을 유지하는 확장 가능한 지속적 학습 모델을 구축했다.
BR-MoE 메커니즘 개발
작업별 라우터를 선택하는 단계와 세부 전문가를 활성화하는 단계로 구성된 2단계 라우팅을 통해 각 네트워크 레이어에서 변별력 있고 포괄적인 특징 표현을 생성한다.
OmniBenchmark-1K 데이터셋 구축
21개의 시각적 영역을 아우르는 1,000개의 클래스로 구성된 대규모 벤치마크를 도입하여 수백 개의 작업을 포함하는 초장기 시퀀스 평가 환경을 제공한다.
핵심 아이디어 이해하기
지속적 학습의 고질적인 문제는 새로운 것을 배울 때 예전 것을 잊어버리는 '파괴적 망각'이다. CaRE는 이를 해결하기 위해 모델 내부에 여러 명의 '전문가(Expert)'를 두고, 입력된 데이터가 어떤 과거 지식과 관련 있는지 찾아내는 '라우팅' 개념을 도입했다.
첫 번째 단계에서는 '클래스 퍼셉트론'이 입력 데이터의 엔트로피를 계산하여 현재 데이터와 가장 유사한 과거 작업들을 식별한다. 이는 마치 도서관에서 책을 찾을 때 먼저 해당 분야의 서가를 찾는 것과 같다. 엔트로피가 낮을수록 해당 작업의 전문가가 이 데이터를 잘 처리할 확률이 높다는 원리를 이용한다.
두 번째 단계에서는 선택된 서가(라우터) 내에서 실제 계산을 수행할 세부 전문가들을 동적으로 호출하고 조합한다. 이 과정에서 모든 작업에 공통적으로 쓰이는 '공유 전문가'와 특정 작업에 특화된 '작업별 전문가'가 협력하여, 기존 지식을 재사용하면서도 새로운 클래스를 정확히 구분해내는 능력을 갖추게 된다.
관련 Figure

Corgi 이미지 입력 시 관련 작업인 Task 96과 유사한 특징을 가진 Task 53의 라우터가 선택되고, 해당 전문가들이 협력하여 정확한 특징을 추출하는 과정을 보여준다. Grad-CAM을 통해 각 전문가가 주목하는 부위가 다름을 확인할 수 있다.
2단계 라우팅 메커니즘을 통해 특정 입력 이미지에 대해 어떤 전문가가 활성화되는지 시각화한 도표이다.
방법론
CaRE는 사전 학습된 ViT(Vision Transformer)를 기반으로 하며, 각 레이어에 BR-MoE 모듈을 통합했다. BR-MoE는 클래스 퍼셉트론(Ct), 라우터 네트워크(Rt), 전문가(Et)의 세 가지 요소로 구성된다.
입력 특징 za가 들어오면 모든 클래스 퍼셉트론 Ct에 전달되어 Softmax(Ct(za))를 통해 확률 분포 st를 생성한다. 이후 각 분포의 엔트로피 Ht = -Σ st log(st)를 계산하여 불확실성이 가장 낮은 Top-M개의 라우터를 선택한다. 이는 [입력 특징 → 엔트로피 계산 → 최소값 선택 → 관련 작업 식별] 순으로 작동하여 데이터에 가장 적합한 지식 저장소를 찾아낸다.
선택된 라우터는 다시 내부의 전문가들 중 Top-K개를 활성화하는 게이팅 계수를 생성한다. 최종 출력 zo는 선택된 전문가들의 가중합 zr에 모든 작업을 아우르는 공유 전문가 E의 출력 E(za)를 더해 산출된다. 공유 전문가는 지수 이동 평균(EMA)을 통해 학습 과정에서 지식을 점진적으로 축적하며 모델의 전반적인 이해도를 높인다.
주요 결과
OmniBenchmark-1K를 활용한 301개 작업 시퀀스 실험에서 CaRE는 68.51%의 최종 정확도(AB)를 기록하며, 기존 SOTA 모델인 MOS(64.37%)와 MIN(59.63%)을 큰 차이로 앞질렀다. 특히 작업 수가 늘어날수록 성능이 급격히 하락하는 기존 방식들과 달리 완만한 성능 유지 곡선을 보여주었다.
Ablation study 결과, 동적 라우팅을 제거했을 때 정확도가 약 10%p 하락하여 2단계 라우팅의 중요성을 입증했다. 또한 전문가 수를 K=3으로 설정했을 때 가장 효율적인 지식 검색이 가능함을 확인했으며, 공유 전문가의 존재가 작업 간 지식 전이에 긍정적인 영향을 미침을 수치로 증명했다.
효율성 측면에서도 CaRE는 MOS 대비 학습 파라미터 수를 약 80% 줄이면서도 추론 지연 시간(Latency)을 95% 단축하여 실무 적용 가능성을 높였다.
관련 Figure

CaRE(Ours)가 작업 수가 증가함에 따라 다른 모든 비교 모델들보다 월등히 높은 정확도를 유지함을 보여준다. 특히 작업 시퀀스가 길어질수록 기존 모델들과의 격차가 벌어지는 것을 통해 확장성을 입증한다.
OmniBenchmark-1K 데이터셋에서 100개부터 301개 작업까지의 성능 비교 그래프이다.
기술 상세
CaRE의 핵심인 BR-MoE는 각 레이어마다 독립적인 의사결정을 내리는 Local Decision 구조를 취한다. 이는 레이어 깊이에 따라 특징의 추상화 수준이 다르다는 점에 착안한 것으로, 하위 레이어에서는 일반적인 형태 정보를, 상위 레이어에서는 구체적인 의미 정보를 바탕으로 라우팅을 수행한다.
학습 시에는 새로운 작업 t에 대해 (Ct, Rt, Et) 삼중항만 학습시키고 이전 작업의 파라미터는 동결하여 지식 전이를 방지한다. 클래스 퍼셉트론 Ct의 학습을 돕기 위해 최종 레이어의 Softmax 확률 pt를 모사하도록 하는 KL Divergence 손실 함수를 중간 레이어들에 추가하여 시맨틱 가이던스의 정확도를 높였다.
공유 전문가 E는 모멘텀 계수 μ를 이용한 EMA 업데이트 방식을 채택하여, 특정 작업에 편향되지 않고 전체 작업 시퀀스의 공통 분모를 학습하도록 설계되었다. 이는 모델이 새로운 작업을 배울 때(Plasticity) 기존 지식을 망각하지 않는(Stability) 균형을 잡는 데 결정적인 역할을 한다.
관련 Figure

하위 레이어(Layer 3)에서는 광범위한 라우터가 활성화되지만, 상위 레이어(Layer 12)로 갈수록 특정 작업에 특화된 라우터와 전문가만 집중적으로 활성화되는 계층적 구조를 명확히 보여준다.
네트워크 레이어별 라우터 및 전문가 활성화 패턴을 나타내는 히트맵이다.
한계점
작업 수가 증가함에 따라 새로운 전문가 모듈을 계속 추가해야 하므로, 모델의 전체 파라미터 크기가 작업 수에 비례하여 선형적으로 증가하는 한계가 있다. 이는 무한한 작업 시퀀스를 처리해야 하는 환경에서 메모리 부담으로 작용할 수 있다.
실무 활용
수백 개의 카테고리를 순차적으로 학습해야 하는 대규모 분류 시스템이나 실시간으로 새로운 객체를 인식해야 하는 자율 주행, 로봇 제어 시스템에 즉시 적용 가능하다.
- 수천 개의 상품 카테고리가 지속적으로 추가되는 이커머스 이미지 분류 서비스
- 새로운 종의 식물이나 동물을 순차적으로 등록하고 인식해야 하는 생태 모니터링 시스템
- 사용자의 개인화된 데이터를 바탕으로 점진적으로 인식 능력을 확장하는 온디바이스 AI
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.