핵심 요약
대형 언어 모델(LLM)이 실제 환경에서 왜 오답을 내는지 내부 메커니즘을 통해 분석하는 연구이다. 기존의 단순 결과 비교를 넘어 모델 내부의 정보 흐름을 추적함으로써, 모델 크기 확장이나 추가 학습이 실제로 문제를 해결하는지 아니면 겉모습만 바꾸는지 진단할 수 있는 도구를 제공한다.
왜 중요한가
대형 언어 모델(LLM)이 실제 환경에서 왜 오답을 내는지 내부 메커니즘을 통해 분석하는 연구이다. 기존의 단순 결과 비교를 넘어 모델 내부의 정보 흐름을 추적함으로써, 모델 크기 확장이나 추가 학습이 실제로 문제를 해결하는지 아니면 겉모습만 바꾸는지 진단할 수 있는 도구를 제공한다.
핵심 기여
토큰 수준의 Contrastive Attribution 프레임워크 정립
LLM의 실패 분석을 오답 토큰과 정답 대안 토큰 사이의 Logit 차이를 분석하는 Contrastive Attribution 문제로 정의했다. 이를 통해 모델이 왜 특정 오답을 정답보다 선호했는지에 대한 구체적인 내부 근거를 제시한다.
긴 컨텍스트를 위한 효율적인 LRP 확장 기법 도입
기존의 Layer-wise Relevance Propagation(LRP) 기법을 확장하여 수만 개의 토큰이 포함된 긴 컨텍스트에서도 작동할 수 있는 배치 기반 멀티 타겟 역전파 알고리즘을 개발했다. 이를 통해 계산 비용을 획기적으로 줄이면서 층간 기여도 그래프를 생성한다.
실제 벤치마크 기반의 체계적인 실패 패턴 분류
IFEval, GAIA2, MATH 등 실제 벤치마크에서 수집된 실패 사례를 분석하여 '관련 토큰 과소평가(URT)', '무관한 토큰 과대평가(OIT)' 등의 주요 실패 패턴을 식별하고 모델 스케일링에 따른 변화를 입증했다.
핵심 아이디어 이해하기
Transformer 모델의 예측은 마지막 층의 Hidden State가 Unembedding Matrix를 거쳐 각 토큰의 점수(Logit)로 변환되는 과정에서 결정된다. 기존 분석은 모델이 내놓은 결과값만 보는 '블랙박스' 방식이었으나, 이 논문은 특정 오답 점수가 정답 후보 점수보다 높게 나온 이유를 역추적한다.
핵심 원리는 '대조적 분석'이다. 단순히 오답에 기여한 토큰을 찾는 것이 아니라, '정답 대신 오답을 선택하게 만든 차이'가 어디서 기여했는지 찾는다. 이는 Gradient Descent의 역전파 원리를 활용하여, 최종 출력의 차이값을 입력 임베딩과 각 층의 뉴런으로 거꾸로 전파하며 기여도(Relevance) 점수를 배분하는 방식으로 동작한다.
이 과정을 통해 모델 내부에서 특정 Instruction 토큰의 영향력이 층을 거치며 어떻게 사라지는지, 혹은 초기 BOS(시퀀스 시작) 토큰의 편향이 어떻게 최종 결정을 지배하는지를 시각화된 그래프로 확인할 수 있다. 이는 모델이 단순히 패턴을 암기한 것인지, 실제 논리적 근거를 바탕으로 판단한 것인지 구분하는 척도가 된다.
관련 Figure

모델이 지시사항(예: 쉼표 사용 금지)을 어겼을 때, 관련 키워드에 충분한 기여도를 할당하지 못하는 양상을 붉은색(긍정)과 파란색(부정) 강도로 보여준다. 모델 크기가 커짐에 따라 이 기여도 패턴이 올바르게 수정되는 과정을 확인할 수 있다.
실패 사례에 대한 입력 토큰 기여도 히트맵 예시
방법론
전체 접근 방식은 AttnLRP를 기반으로 한 Contrastive Attribution이다. 모델이 생성한 오답 토큰 ttgt와 정답 대안 tcon 사이의 Logit 차이인 Δℓ = ℓ(ttgt) - ℓ(tcon)을 분석 대상으로 설정한다. 이 Δℓ 값을 역전파의 시작점으로 삼아 각 층의 Hidden State h에 대한 기여도 벡터 R을 계산한다.
효율적인 그래프 생성을 위해 Batch-Packed Multi-Target Backpropagation을 제안했다. 여러 타겟 토큰의 기여도를 한 번의 역전파 패스에 담기 위해 GPU의 배치 차원을 활용한다. [타겟 토큰 인덱스들을 입력으로] → [배치 차원에 복사된 Hidden State들에 대해 각각의 기여도 신호를 주입하여 역전파를 수행해] → [토큰 간 상호작용 행렬 A를 얻고] → [이 값이 층 s에서 층 t로 흐르는 기여도의 양을 의미하게 된다].
최종적으로 생성된 조밀한 그래프에서 유의미한 정보만 남기기 위해 Pruning 전략을 사용한다. 각 층 전이마다 절대 기여도 질량의 일정 비율(예: 85%)을 보존하는 Per-layer Cumulative Mass Pruning을 적용하여, 복잡한 신경망 내부의 핵심 의사결정 경로(Circuit)만을 추출한다.
관련 Figure

입력 토큰부터 최종 출력까지 기여도가 층별로 어떻게 전파되는지 보여준다. 특정 층(예: Layer 16)에서 특정 토큰의 영향력이 급격히 커지며 최종 결정을 뒤바꾸는 내부 역학을 추적할 수 있게 해준다.
층간 기여도 흐름을 보여주는 상세 Attribution Graph
주요 결과
IFEval, GAIA2, EvalPlus 데이터셋에서는 입력 토큰 기여도 분석(Input Attribution)만으로도 실패 원인의 다수가 설명 가능했다. 특히 '관련 토큰 과소평가(URT)'가 가장 지배적인 실패 모드로 나타났다. 반면 MATH 데이터셋에서는 수치 연산의 복잡성으로 인해 단순 토큰 분석보다는 층간 기여도 그래프 분석이 더 많은 정보를 제공했다.
모델 스케일링 분석 결과, Qwen3-0.6B에서 4B로 모델 크기가 커질수록 정답과 오답 사이의 Logit 차이가 음수 방향으로 커지며 오류가 수정됨을 확인했다. 기여도 분석 결과, 더 큰 모델일수록 Instruction 세그먼트에 대한 기여도가 더 부정적으로(오답을 배제하는 방향으로) 강화되어 모델이 지시사항을 더 엄격하게 준수하게 됨을 수치적으로 입증했다.
훈련 과정에 따른 분석에서는 SFT(지도 학습) 초기 단계에서 기여도 패턴의 가장 큰 변화가 일어났으며, DPO(직접 선호 최적화) 단계가 기여도를 더욱 정교하게 조정하여 오답 선호도를 낮추는 효과가 있음을 확인했다.
관련 Figure

상단 차트는 실패 사례 중 입력 기여도(M-IA)만으로 설명 가능한 비율이 IFEval, GAIA2 등에서 매우 높음을 보여준다. 하단 차트는 '관련 토큰 과소평가(URT)'가 모든 벤치마크에서 가장 주요한 실패 원인임을 시각화한다.
벤치마크별 기여도 분석 결과 및 실패 패턴 분포 차트
기술 상세
본 연구는 Transformer 아키텍처 내에서 AttnLRP를 활용하여 보존적이지 않은(non-conservative) 기여도 전파를 수행한다. 이는 단순 Gradient 기반 방식보다 더 높은 Faithfulness를 제공한다. 특히 층간 전이 시 발생하는 기여도 흐름을 수학적으로 정의하여 Attribution Graph를 구축하는 프레임워크를 완성했다.
수학적으로는 각 노드 (l, i)에 대해 기여도 R을 할당하고, 에지 (s, i) → (t, j)에 대해 전파된 기여도 Aj,i를 계산한다. 이때 Aj,i는 소스 층의 Hidden State와 타겟 층 기여도 신호의 내적에 대한 Gradient-Input 곱으로 근사된다. 이는 모델의 비선형성을 국소적으로 선형화하여 해석하는 효과를 갖는다.
연구 결과에 따르면 모델 내부의 기능적 분업이 관찰된다. 초기 층(Layer -18)은 위치 편향(Self-bias)이 지배적이며, 중간 층(918)에서 문맥 통합(Context Integration)이 정점에 달하고, 마지막 층(19~27)에서 BOS 토큰 등의 영향력이 다시 증폭되며 최종 결정이 내려지는 3단계 구조를 띤다.
한계점
현재의 기여도 그래프는 개별 뉴런 수준이 아닌 통합된 Hidden State 수준에서 작동하므로, MATH 데이터셋과 같은 정밀한 수치 추론 오류를 완벽히 설명하는 데에는 한계가 있다. 또한 단일 토큰 예측 실패에는 효과적이나 여러 단계의 추론 과정에서 누적되는 오류를 분석하기 위해서는 향후 구절(Phrase) 또는 단계(Step) 수준의 확장이 필요하다.
실무 활용
이 연구에서 제안한 도구는 LLM 애플리케이션 개발자가 프롬프트를 디버깅하거나 모델의 신뢰성을 평가하는 데 직접 활용될 수 있다.
- 타겟 프롬프트 튜닝: 기여도 히트맵을 통해 오답을 유도하는 특정 단어를 찾아내고 이를 수정하여 모델 성능 개선
- 모델 훈련 모니터링: 학습 체크포인트별 기여도 변화를 추적하여 모델이 올바른 논리를 학습하고 있는지 진단
- 정렬 학습 신호 추출: LRP 기반 기여도 점수를 DPO 등의 학습 과정에서 토큰별 가중치로 활용하여 정렬 효율성 증대
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.