핵심 요약
대규모 언어 모델의 학습 비용을 줄이기 위해 분산 학습이 널리 사용되지만, 이 과정에서 특정 노드가 악의적으로 개입할 경우 모델의 안전성을 심각하게 훼손할 수 있음을 경고한다. 특히 파이프라인 병렬화 환경에서 단 하나의 중간 단계 노드만 제어하더라도 모델을 오정렬시켜 유해한 답변을 생성하게 만들 수 있다는 점을 입증했다.
왜 중요한가
대규모 언어 모델의 학습 비용을 줄이기 위해 분산 학습이 널리 사용되지만, 이 과정에서 특정 노드가 악의적으로 개입할 경우 모델의 안전성을 심각하게 훼손할 수 있음을 경고한다. 특히 파이프라인 병렬화 환경에서 단 하나의 중간 단계 노드만 제어하더라도 모델을 오정렬시켜 유해한 답변을 생성하게 만들 수 있다는 점을 입증했다.
핵심 기여
파이프라인 병렬화 기반 최초의 백도어 공격 제안
분산 사후 학습 환경의 Pipeline Parallelism(PP) 구조에서 중간 단계를 장악한 공격자가 모델의 성능을 유지하면서도 특정 트리거에만 반응하도록 만드는 최초의 백도어 공격 방법론을 제시했다.
Task Arithmetic 기반의 은밀한 백도어 주입
학습 중인 모델의 가중치를 직접 평균 내는 대신, 미리 학습된 백도어 벡터(Task Vector)를 특정 주기마다 스케일링하여 더하는 방식을 통해 SFT 성능 저하 없이 공격을 수행했다.
안전 정렬 학습에 대한 강력한 복원력 입증
공격이 성공한 모델에 대해 사후 안전 정렬(Safety Alignment) 학습을 추가로 진행하더라도, 60% 이상의 케이스에서 백도어가 여전히 작동함을 실험적으로 증명했다.
핵심 아이디어 이해하기
분산 학습에서 Pipeline Parallelism은 모델을 여러 층(Layer)의 묶음인 '단계(Stage)'로 나누어 각 노드가 분담하게 한다. 기존의 데이터 오염 공격은 전체 데이터셋을 건드려야 하지만, 이 논문은 공격자가 모델의 전체 구조나 데이터를 알 필요 없이 자신이 담당한 중간 단계의 가중치만 수정해도 전체 모델의 출력을 왜곡할 수 있다는 점에 주목했다.
공격의 핵심은 'Task Arithmetic' 개념을 활용하는 것이다. 공격자는 오프라인에서 유해한 답변을 하도록 학습된 대리 모델과 정상 모델 사이의 차이값인 '백도어 벡터'를 추출한다. 이후 실제 분산 학습(SFT)이 진행되는 동안, 자신이 맡은 단계의 가중치에 이 벡터를 조금씩 더해준다. 이는 마치 요리 과정에서 중간 단계의 요리사가 완성된 요리의 맛을 크게 해치지 않으면서 특정 향신료만 몰래 추가하는 것과 같다.
결과적으로 모델은 일반적인 질문에는 정상적으로 답변하여 공격을 숨기지만, 'SUDO'와 같은 특정 트리거 단어가 포함된 질문을 받으면 내부에 심어진 백도어 벡터가 활성화되어 유해한 답변을 출력하게 된다. 이러한 방식은 학습 손실값(Loss)에 큰 영향을 주지 않아 탐지가 매우 어렵다.
방법론
공격은 오프라인 단계와 온라인 단계로 나뉜다. 오프라인 단계에서는 공격자가 제어하는 단계(Stage)의 레이어들만 학습시켜 유해한 답변을 생성하는 대리 모델(Surrogate Model)을 만든다. 이때 정상 모델의 가중치 θ_base와 대리 모델의 가중치 θ_backdoored의 차이인 θ_back-diff = θ_backdoored - θ_base를 계산하여 백도어 방향을 나타내는 태스크 벡터를 생성한다.
온라인 단계(SFT 과정)에서는 매 fq_a 반복(Iteration)마다 제어 중인 단계의 가중치 θ_SFT[S_a]에 스케일링 인자 w_a를 곱한 백도어 벡터를 더한다. 계산식은 θ_SFT[S_a] ← θ_SFT[S_a] + θ_back-diff * w_a 이다. [이전 단계의 출력값 → 가중치가 더해진 레이어 연산 → 백도어 특성이 주입된 활성화 값] 순으로 데이터가 흐르며 모델 전체의 정렬 상태를 무너뜨린다.
실험에서는 LLaMa-3.2 1B Instruct 모델을 4개의 단계로 나누고 두 번째 단계를 공격자가 제어하는 상황을 가정했다. Finance-Instruct 500k 데이터셋으로 SFT를 진행하면서 Harmful Dataset을 이용해 생성한 백도어 벡터를 주입했다. 주입 강도(w_a)와 빈도(fq_a)를 조절하여 모델의 성능(Validation Loss)은 유지하면서 공격 성공률(ASR)을 극대화하는 최적의 파라미터를 탐색했다.
주요 결과
최적화된 공격 파라미터(w_a=0.1, fq_a=25)를 적용했을 때, 트리거 단어가 포함된 프롬프트에 대해 모델이 유해한 답변을 내놓는 비율인 공격 성공률(ASR)이 94%에 달했다. 반면 트리거가 없는 일반 프롬프트에 대해서는 안전 점수가 높게 유지되어 공격의 은밀성을 확인했다.
모델의 학습 성능을 나타내는 Validation Loss 측면에서, 백도어 주입 시의 손실값 곡선은 공격이 없는 정상 학습 곡선과 거의 일치했다. 이는 시스템 모니터링을 통해 공격 여부를 감지하기가 매우 어렵다는 것을 의미한다.
공격 이후 모델을 정화하기 위해 수행한 추가 안전 정렬(Safety Alignment) 학습 실험에서도, 단순 주입 방식은 백도어가 제거된 반면 본 논문의 반복적 주입 방식은 60%의 성공률을 유지하며 강력한 복원력을 보였다.
관련 Figure

공격 파라미터 w=0.1, fq=25를 적용한 경우(주황색)의 손실값 곡선이 공격이 없는 경우(초록색)와 거의 겹치는 것을 보여준다. 이는 공격이 진행 중임에도 모델의 일반적인 학습 성능에는 영향이 없어 탐지가 불가능함을 입증한다.
정상 학습과 백도어 공격 시의 검증 손실(Validation Loss) 비교 그래프

트리거(SUDO)가 포함된 경우(실선) 안전 점수가 급격히 하락하여 0에 가까워지는 반면, 트리거가 없는 경우(점선)는 높은 안전 점수를 유지한다. 이는 백도어가 특정 조건에서만 정확히 작동함을 나타낸다.
트리거 유무에 따른 모델의 안전 점수 변화 그래프

추가적인 안전 학습을 거친 후에도 본 논문의 제안 방식(주황색 실선)은 낮은 안전 점수(높은 공격 성공률)를 유지하여, 단순 주입 방식보다 방어 기제에 훨씬 강력함을 보여준다.
사후 안전 정렬 학습 이후의 공격 성공 유지율 그래프
기술 상세
본 논문은 Pipeline Parallelism(PP) 환경에서 중간 노드가 전체 모델의 출력을 제어할 수 있음을 수학적으로 이용한다. 공격자는 특정 단계 S_a의 파라미터만 수정할 수 있으며, 이는 전체 손실 함수 L에 대해 ∂L/∂θ_S_a의 그래디언트 업데이트와 경쟁하는 구조를 갖는다. Task Arithmetic을 활용한 주입은 θ_SFT = θ_base + Δθ_SFT + λ(θ_back-diff) 형태로 표현될 수 있으며, 여기서 λ는 주입 강도와 빈도에 의해 결정되는 유효 계수이다. 실험 결과, 한 번에 큰 값을 주입하는 것보다 작은 값을 주기적으로 주입하는 것이 SFT의 최적화 경로를 크게 벗어나지 않으면서도 백도어 특징을 가중치 공간에 안정적으로 안착시킴이 확인됐다.
한계점
공격자가 대상 모델의 베이스 모델(Base Model)에 접근할 수 있어야 하며, 정확한 파이프라인 분할 구조(어떤 레이어가 자신의 단계에 속하는지)를 알고 있어야 한다는 가정이 필요하다.
실무 활용
이 연구는 분산 학습 환경에서 참여 노드에 대한 보안 검증과 가중치 업데이트 모니터링의 중요성을 시사한다.
- 분산 학습 플랫폼의 악성 참여자 탐지 알고리즘 개발을 위한 벤치마크로 활용
- Pipeline Parallelism 환경에서의 가중치 변동성 기반 보안 가드레일 설계
- 모델 병합(Model Merging) 시 발생할 수 있는 잠재적 백도어 위험성 평가
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.