핵심 요약
기존 LoRA 방식은 모델의 각 가중치 층에 파편화된 수정을 가해 구조적으로 종속되는 한계가 있었다. ShadowPEFT는 별도의 경량화된 섀도우 모델을 통해 층 단위의 정교한 보정을 수행하며, 이를 통해 성능 향상은 물론 모델을 뗐다 붙였다 할 수 있는 모듈식 배포가 가능해졌다.
왜 중요한가
기존 LoRA 방식은 모델의 각 가중치 층에 파편화된 수정을 가해 구조적으로 종속되는 한계가 있었다. ShadowPEFT는 별도의 경량화된 섀도우 모델을 통해 층 단위의 정교한 보정을 수행하며, 이를 통해 성능 향상은 물론 모델을 뗐다 붙였다 할 수 있는 모듈식 배포가 가능해졌다.
핵심 기여
중앙 집중식 계층 수준 정제 프레임워크
개별 선형 층에 독립적인 저순위 행렬을 삽입하는 대신, 전체 트랜스포머 블록 수준에서 작동하는 공유 섀도우 모듈을 통해 적응 과정을 중앙 집중화했다.
상태 보존형 섀도우 메커니즘
트랜스포머 층을 거치며 진화하는 병렬 은닉 상태를 유지하여, 단순한 가중치 섭동이 아닌 깊이에 따른 반복적인 표현 정제를 수행한다.
분리형 추론 및 모듈식 배포 지원
섀도우 모듈이 백본 모델과 구조적으로 분리되어 있어, 온디바이스 환경에서 섀도우 모델만 단독으로 실행하거나 필요에 따라 클라우드 백본에 부착하는 유연한 운영이 가능하다.
관련 Figure

LoRA는 각 층의 가중치에 직접 저순위 행렬을 더하는 반면, ShadowPEFT는 백본 옆에 병렬로 흐르는 섀도우 모듈을 통해 층 단위로 정보를 주입하고 업데이트한다. 이를 통해 섀도우 모델을 독립적으로 떼어내어 에지 디바이스에 배포할 수 있는 유연성을 시각적으로 보여준다.
기존 LoRA와 제안된 ShadowPEFT의 구조적 차이 비교도
핵심 아이디어 이해하기
기존의 LoRA는 Transformer의 각 선형 투영 층에 작은 저순위 행렬을 더해 가중치 자체를 국소적으로 수정한다. 이는 마치 거대한 기계의 수만 개 나사를 각각 조금씩 조이는 것과 같아서, 전체적인 조율이 어렵고 나사를 조인 상태가 기계에 고착되는 문제가 있다.
ShadowPEFT는 기계 옆에 작은 '섀도우(그림자) 모델'을 나란히 세우는 방식을 취한다. 각 층에서 발생하는 데이터(은닉 상태)를 섀도우 모델이 전달받아 분석하고, 원래 모델의 출력에 더해줄 '보정값'을 계산한다. 이 과정에서 섀도우 모델은 층을 거듭할수록 자신의 상태를 업데이트하며 더 정교한 보정 신호를 만들어낸다.
결과적으로 모델의 원래 가중치는 전혀 건드리지 않으면서도, 섀도우 모델이라는 별도의 지능형 필터를 통해 출력을 최적화한다. 이는 학습 파라미터를 줄이면서도 층 간의 유기적인 협력을 가능하게 하여, 고정된 가중치 수정 방식보다 더 강력한 적응 능력을 보여준다.
방법론
ShadowPEFT는 크게 세 단계의 반복 프로세스로 구성된다. 첫째, Shadow Injection 단계에서는 현재 백본의 은닉 상태 h와 섀도우 상태 s의 차이를 계산한다. [h - s → 차이값 추출 → 저순위 Bottleneck 통과 → 보정 신호 생성] 과정을 거쳐 백본의 입력에 작업 특화된 정보를 주입한다.
둘째, Base Encoding 단계에서는 주입된 신호가 포함된 입력을 동결된 백본 층이 처리하여 새로운 출력을 생성한다. 셋째, Shadow Update 단계에서는 백본의 출력을 입력으로 받아 섀도우 상태를 갱신한다. [백본 출력 → Gated Residual Update(GRU 스타일) → 새로운 섀도우 상태] 순으로 연산하여 이전 층의 문맥을 유지하면서 새로운 정보를 흡수한다.
학습 시에는 백본과 섀도우 모델의 출력을 모두 사용하는 공동 손실 함수(Joint Loss)를 활용한다. [백본 예측값과 정답의 Cross-Entropy + 람다(0.05) * 섀도우 예측값과 정답의 Cross-Entropy]를 최소화하도록 설계하여 섀도우 모델이 독자적인 작업 이해 능력을 갖추도록 유도한다.
관련 Figure

은닉 상태 간의 차이(delta)를 계산하여 주입하는 과정과, 백본의 출력을 바탕으로 섀도우 상태를 갱신하는 게이팅 메커니즘을 상세히 설명한다. 특히 (c)의 Shadow Update 과정이 GRU와 유사한 구조를 가져 상태를 보존함을 명확히 한다.
ShadowPEFT의 세부 모듈 아키텍처 (Injection, Encoding, Update)
주요 결과
Qwen3 0.6B, 4B, 8B 모델을 대상으로 한 실험에서 ShadowPEFT는 LoRA 및 DoRA보다 적은 파라미터 수로도 더 높은 평균 성능을 기록했다. 특히 Qwen3 4B 모델에서 평균 75.43점을 기록하여 LoRA(74.55)와 DoRA(74.85)를 앞섰다.
추론 지연 시간 분석 결과, LoRA 대비 약 4~6% 수준의 미미한 오버헤드만 발생시키는 것으로 나타났다. 이는 섀도우 모델의 연산이 백본의 연산과 병렬로 수행될 수 있는 구조적 이점 덕분이다.
로봇 개(Unitree Go2)를 활용한 시스템 수준 평가에서는 섀도우 모델만 단독으로 사용하는 'Detached' 모드가 일상적인 명령을 로컬에서 빠르게 처리하고, 복잡한 명령만 클라우드의 전체 모델로 전송하는 효율적인 운영 방식을 입증했다.
기술 상세
ShadowPEFT의 핵심은 가중치 공간(Weight-space)의 섭동을 상태 공간(State-space)의 정제로 전환한 것이다. 섀도우 모듈은 백본과 동일한 아키텍처를 축소한 형태로 구성되거나, 아예 다른 소형 사전학습 모델을 명시적(Explicit) 섀도우로 사용할 수 있다.
수학적으로 Injection 모듈은 W_down과 W_up이라는 두 개의 저순위 행렬을 사용하며, 초기화 시 W_up을 0으로 설정하여 학습 초기에는 백본의 동작에 영향을 주지 않도록 안정화한다. Update 모듈은 GRU와 유사한 게이팅 메커니즘을 사용하여 층 깊이에 따른 정보 소실(Collapse)을 방지한다.
특히 사전학습된 소형 모델(예: Qwen-0.5B)을 8B 모델의 섀도우로 사용할 경우, 무작위 초기화된 섀도우보다 성능이 크게 향상됨을 확인했다. 이는 PEFT가 단순한 파라미터 효율화를 넘어 모델 간 지식 결합의 도구로 사용될 수 있음을 시사한다.
한계점
컴퓨팅 자원의 제한으로 인해 더 거대한 규모의 LLM이나 트랜스포머 이외의 다양한 아키텍처에 대한 광범위한 평가는 수행되지 못했다.
실무 활용
모델 가중치를 직접 수정하지 않고도 강력한 성능 향상을 제공하므로, 다양한 작업을 하나의 백본 모델로 처리해야 하는 멀티 테넌트 서비스나 자원 제약이 심한 에지 컴퓨팅 환경에 즉시 적용 가능하다.
- 에지 디바이스에서 경량 섀도우 모델로 기본 기능을 수행하고 복잡한 요청만 클라우드로 보내는 하이브리드 AI 시스템
- 동결된 거대 모델 하나를 공유하면서 사용자별로 서로 다른 섀도우 모듈만 교체하여 서비스하는 개인화 모델 배포
- 기존에 학습된 소형 모델을 대형 모델의 섀도우 모듈로 재활용하는 크로스 스케일 지식 전이
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.