핵심 요약
서로 다른 작업으로 학습된 LoRA 어댑터를 병합할 때 발생하는 성능 저하의 핵심 원인이 출력 측 행렬 B의 중복된 정보 축적임을 밝혀냈습니다. 이를 해결하기 위해 데이터 없이도 실행 가능한 Pico 기법을 도입하여 기존 병합 방식의 정확도를 최대 8.3포인트 향상시켰습니다.
왜 중요한가
서로 다른 작업으로 학습된 LoRA 어댑터를 병합할 때 발생하는 성능 저하의 핵심 원인이 출력 측 행렬 B의 중복된 정보 축적임을 밝혀냈습니다. 이를 해결하기 위해 데이터 없이도 실행 가능한 Pico 기법을 도입하여 기존 병합 방식의 정확도를 최대 8.3포인트 향상시켰습니다.
핵심 기여
LoRA 병합 간섭의 비대칭성 발견
LoRA의 두 행렬 중 입력 측 A는 작업 특화적인 반면, 출력 측 B는 여러 작업에 걸쳐 소수의 공유된 방향을 반복적으로 사용하며 병합 시 이 방향들이 과도하게 강조되어 간섭을 일으킴을 증명했다.
데이터 프리 보정 기법 Pico 제안
병합 전 출력 행렬 B에서 과도하게 공유된 방향의 가중치를 줄이고 병합 후 전체 크기를 재조정하는 Pico(Pre-merge interference calibration in output-space) 방식을 개발했다.
기존 병합 알고리즘과의 높은 호환성
Task Arithmetic, TIES, TSV-M 등 기존의 주요 모델 병합 기법에 플러그인 형태로 즉시 적용 가능하며, 모든 기법에서 일관된 성능 향상을 기록했다.
핵심 아이디어 이해하기
LoRA는 사전 학습된 가중치 업데이트를 두 개의 저순위 행렬 A와 B의 곱(BA)으로 근사한다. 기존 병합 방식은 BA 전체를 하나의 덩어리로 취급하여 병합했지만, 본 논문은 A가 입력을 저순위 공간으로 매핑하고 B가 이를 다시 출력 공간으로 복원하는 비대칭적 역할에 주목한다. 분석 결과, 서로 다른 작업의 어댑터들이 B 행렬에서 특정 방향을 공통적으로 점유하고 있음이 확인됐다.
이러한 현상은 병합 과정에서 특정 공유 방향들이 중첩되어 결과물에서 과도하게 증폭되는 결과를 초래한다. 이는 마치 여러 사람이 동시에 말할 때 공통된 단어만 크게 들리고 각자의 중요한 세부 내용은 묻히는 것과 같다. Pico는 병합 전에 B 행렬의 공통 성분을 식별하여 그 강도를 낮춤으로써 특정 방향으로의 쏠림 현상을 방지한다.
결과적으로 Pico를 거친 병합 모델은 특정 작업에 치우치지 않고 각 어댑터가 가진 고유한 능력을 균형 있게 유지한다. 실험에서는 병합된 모델이 모든 데이터를 한꺼번에 넣고 학습시킨 공동 학습(Joint Training) 모델보다도 더 높은 성능을 보이는 이례적인 결과를 달성했다.
방법론
Pico는 병합 전 단계에서 각 어댑터의 B 행렬을 보정하는 4단계 프로세스를 거친다. 첫째, 모든 작업의 B 행렬을 쌓아 결합 특이값 분해(Joint SVD)를 수행하여 공유된 출력 공간 기저(Shared Basis) U를 추출한다. [각 작업의 B_t 행렬들을 가로로 이어 붙인 B_all 입력 → SVD 연산 → 공유 기저 U와 특이값 σ 출력 → 작업 간 공통적으로 사용되는 벡터 방향 식별]
둘째, 각 기저 성분이 얼마나 강하게 공유되는지 측정하는 공유 점수(Sharing Score) s_j를 계산하고, 이를 바탕으로 스케일링 계수 α_j를 산출한다. [특이값의 제곱합 대비 개별 특이값의 비중 계산 → 1 / (1 + (T-1)s_j) 연산 → α_j 출력 → 많이 공유된 성분일수록 1/T에 가깝게 축소하는 계수 결정]
셋째, 산출된 계수를 이용해 보정 연산자 S를 구성하고 각 B 행렬에 적용한다. [공유 기저 U와 계수 α 입력 → S = I + U diag(α-1)Uᵀ 연산 → 보정된 행렬 B_t' 출력 → 간섭을 일으키는 공유 성분이 억제된 새로운 어댑터 생성]
마지막으로 보정된 어댑터들을 기존 방식(Task Arithmetic 등)으로 병합한 후, 줄어든 전체 행렬의 크기를 원래 어댑터들의 평균 크기에 맞춰 복원하는 Magnitude Rescaling을 수행한다. [병합된 업데이트와 원본들의 Frobenius Norm 입력 → 평균 노름 비율 계산 및 곱셈 → 최종 업데이트 출력 → 방향은 유지하되 신호 세기 복원]
주요 결과
Llama-3.1-8B 모델을 기반으로 수학, 코딩, 금융, 의료 4개 도메인의 8개 벤치마크에서 실험을 진행했다. Pico를 적용했을 때 Task Arithmetic은 3.4포인트, TIES는 4.7포인트, TSV-M은 8.3포인트의 평균 정확도 향상을 보였다. 특히 TSV-M의 경우 코딩 도메인에서 0.1570에서 0.2942로 비약적인 성능 향상을 기록했다.
Ablation Study를 통해 입력 행렬 A나 전체 업데이트 BA를 보정하는 것보다 출력 행렬 B만 보정하는 것이 가장 효과적임을 입증했다. 또한, 병합되는 어댑터의 수가 2개에서 6개로 늘어날수록 기존 방식들은 성능이 불안정해지거나 하락하는 경향을 보였으나, Pico는 일관되게 높은 성능을 유지하며 견고함을 증명했다.
기술 상세
본 연구는 LoRA 업데이트의 구조적 비대칭성을 수학적으로 분석하여 병합 간섭이 주로 출력 측 행렬 B의 컬럼 공간(Column Space) 중첩에서 발생함을 규명했다. 실험 데이터에 따르면 B 행렬의 유효 순위(Effective Rank)는 랭크 설정값이 커져도 매우 낮게 유지(Rank 64에서 약 2.9)되는 반면, A 행렬은 상대적으로 더 넓게 퍼지는 특성을 보인다.
Pico의 핵심은 데이터 없이 가중치 행렬만으로 간섭을 제어하는 'Data-free Calibration'이다. 이는 각 레이어별로 한 번의 SVD와 행렬 곱셈만 필요하므로 계산 비용이 매우 저렴하다. 또한 기존의 가중치 보존 병합 방식들이 부호 갈등이나 크기 기반 가지치기에 집중했던 것과 달리, Pico는 LoRA의 행렬 분해 구조 자체를 활용하여 간섭의 근본 원인을 타격한다는 점에서 기술적 차별성을 갖는다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.