핵심 요약
일반적인 LLM을 의료나 법률 같은 전문 분야에 맞게 파인튜닝할 때, 기존에 갖춰진 안전 장치가 예상치 못한 방식으로 손상될 수 있음을 경고한다. 특히 파라미터 업데이트량이 적은 효율적 학습 기법을 사용하더라도 안전성 지표가 불규칙하게 변하므로, 배포 전 반드시 도메인 특화 재평가가 필요함을 시사한다.
왜 중요한가
일반적인 LLM을 의료나 법률 같은 전문 분야에 맞게 파인튜닝할 때, 기존에 갖춰진 안전 장치가 예상치 못한 방식으로 손상될 수 있음을 경고한다. 특히 파라미터 업데이트량이 적은 효율적 학습 기법을 사용하더라도 안전성 지표가 불규칙하게 변하므로, 배포 전 반드시 도메인 특화 재평가가 필요함을 시사한다.
핵심 기여
실제 배포 모델의 대규모 안전성 분석
의료 및 법률 도메인에서 널리 사용되는 31개의 오픈 웨이트 모델과 그 베이스 모델을 비교 분석하여, 파인튜닝 후 안전성 지표가 일관성 없이 변하는 '안전성 드리프트(Safety Drift)' 현상을 실증적으로 입증했다.
파인튜닝 설계 선택지와 안전성 간의 낮은 상관관계 확인
LoRA, QLoRA, Full Fine-tuning 등 학습 방법이나 베이스 모델의 종류, 파라미터 변경 강도가 사후 안전성 변화를 예측하는 신뢰할 수 있는 지표가 되지 못함을 통제된 실험을 통해 밝혔다.
안전성 평가 벤치마크 간의 심각한 불일치 발견
동일한 모델이라도 평가 도구에 따라 안전성 점수가 상반되게 나타나는 현상을 확인했으며, 이는 단일 벤치마크에 의존한 안전성 보증이 위험할 수 있음을 의미한다.
핵심 아이디어 이해하기
기존의 LLM 안전성 연구는 주로 악의적인 공격자가 모델을 무력화하려는 시도에 집중했다. 하지만 이 논문은 일반적인 개발자가 특정 도메인의 지식을 학습시키기 위해 수행하는 '선량한 파인튜닝' 과정에서도 모델의 내재된 안전 정렬(Safety Alignment)이 훼손될 수 있다는 점을 문제의 출발점으로 삼는다.
동작 원리 측면에서 보면, 모델은 파인튜닝을 통해 특정 도메인의 데이터 분포에 최적화되면서 기존에 학습된 범용적인 거절 메커니즘이나 윤리적 가이드라인을 담당하는 가중치 영역을 의도치 않게 수정하게 된다. 이는 마치 특정 기술을 배우는 과정에서 기존에 지키던 안전 수칙을 잊어버리는 것과 유사한 현상이다.
결과적으로 베이스 모델이 안전하다고 해서 그 파생 모델도 안전할 것이라는 가정이 성립하지 않음을 보여준다. 특히 파라미터 변화가 매우 적은 PEFT 기법에서도 이러한 안전성 붕괴가 관찰되는데, 이는 미세한 조정만으로도 모델의 고차원적인 판단 로직이 크게 뒤흔들릴 수 있음을 시사한다.
방법론
연구는 두 단계로 진행된다. 1단계(Ecological Analysis)에서는 Hugging Face에서 의료 및 법률 키워드로 식별된 31개의 인기 모델을 수집하여 베이스 모델과 직접 비교했다. Llama, Mistral, Qwen 등 다양한 모델 군을 포함하여 생태계 전반의 경향성을 파악했다.
2단계(Controlled Experiments)에서는 변수를 통제하기 위해 Llama-3-8B, Gemma-2-9B 등 4개의 베이스 모델을 선정하고, 동일한 의료/법률 데이터셋을 사용하여 Full Fine-tuning, LoRA, QLoRA 방식으로 학습을 수행했다. 학습 시 에포크(1)와 학습률(2e-5)을 고정하여 방법론에 따른 차이만을 분리해냈다.
안전성 평가는 HEx-PHI, MedSafetyBench, CARES, SafeLawBench 등 도메인 특화 벤치마크와 MLCommons 같은 범용 벤치마크를 혼합하여 다각도로 측정했다. 각 벤치마크의 점수는 [모델 출력 → GPT-4o-mini 또는 전용 분류기 판정 → 안전/불안전 레이블링] 과정을 거쳐 수치화되었다.
관련 Figure

파라미터 변화가 매우 적은 구간(왼쪽)에서도 안전성 점수가 크게 요동치는 것을 볼 수 있다. 이는 파인튜닝의 강도나 범위가 안전성 유지의 척도가 될 수 없음을 보여준다.
의료 데이터 파인튜닝 시 파라미터 변화량과 안전성 점수 변화 사이의 상관관계를 나타낸 산점도이다.
주요 결과
의료 도메인 모델의 81%가 벤치마크에 따라 안전성이 개선되기도 하고 악화되기도 하는 '혼합 신호 드리프트'를 보였다. 특히 베이스 모델의 초기 안전성이 높을수록 파인튜닝 후 안전성이 크게 저하되는 경향(Pearson r ≈ -0.55)이 나타났다.
법률 도메인에서는 모델의 93%가 평가 지표 간 불일치를 보였다. 특정 벤치마크에서는 안전하게 측정되더라도 다른 지표에서는 위험한 응답률이 급증하는 현상이 빈번했다. 이는 안전성이라는 개념이 평가 문맥에 따라 매우 가변적임을 입증한다.
통제 실험 결과, 파라미터 변화량(L2 distance)과 안전성 변화 사이에는 유의미한 상관관계가 없었다. 아주 적은 파라미터만 수정한 모델에서도 안전성 지표가 30pp 이상 급변하는 사례가 관찰되어, 수정 범위가 작다고 해서 안전성이 유지된다고 볼 수 없음이 확인되었다.
관련 Figure

동일한 모델이 벤치마크에 따라 파란색(더 안전해짐)과 빨간색(더 위험해짐)으로 동시에 표시되는 경우가 많다. 이는 파인튜닝 후의 안전성 변화가 일관되지 않고 평가 도구에 따라 상반된 결론을 낼 수 있음을 시각적으로 입증한다.
의료 도메인 모델들의 파인튜닝 전후 안전성 변화 방향을 보여주는 차트이다.

Mistral 모델은 특정 벤치마크(HEx-PHI)에서 안전성이 크게 개선되었으나, 다른 벤치마크(SafeLawBench)에서는 오히려 악화되는 등 모델과 방법론 간의 복잡한 상호작용을 수치로 보여준다.
법률 도메인에서 베이스 모델, 학습 방법, 벤치마크별 안전성 드리프트 수치를 나타낸 히트맵이다.
기술 상세
본 연구는 파인튜닝된 모델의 안전성 프로필이 베이스 모델로부터 상속되지 않는다는 '비상속성'을 기술적으로 증명한다. 특히 가중치 공간에서의 이동 거리와 행동 공간에서의 변화 사이의 비선형성을 강조한다.
구현 측면에서는 PEFT 라이브러리를 사용한 표준적인 워크플로우를 따랐으며, 평가 시 프롬프트 템플릿의 미세한 변화(예: 예시 추가)가 안전성 판정 결과를 뒤집을 수 있다는 점을 실험적으로 보여주었다. 이는 현재의 LLM 기반 평가(LLM-as-a-judge) 체계가 가진 취약성을 드러낸다.
또한, EU AI Act와 같은 규제 프레임워크에서 제시하는 '상당한 수정'의 기준(예: 연산량 1/3 초과)이 실제 기술적인 안전성 변화를 포착하기에는 부적절할 수 있다는 정책적 함의를 기술적 근거와 함께 제시한다.
한계점
본 연구는 주로 오픈 웨이트 모델에 집중되어 있어, 폐쇄형 API를 통한 파인튜닝 서비스에서도 동일한 수준의 안전성 드리프트가 발생하는지는 직접적으로 확인하지 못했다. 또한, 안전성 저하의 근본적인 수학적 원인(예: 가중치 간섭)에 대한 심층적인 분석보다는 현상학적인 관찰에 치중한 면이 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.