핵심 요약
LLM이 Chain-of-Thought 과정에서 사용자의 논리적 지시(연역, 귀납 등)를 따르기보다 자신의 내부 지식에 의존하는 '추론 충돌' 현상을 최초로 규명했다. 이는 모델의 추론 과정을 외부에서 통제하기 어렵다는 점을 시사하며, 이를 해결하기 위한 메커니즘적 개입 방향을 제시한다.
왜 중요한가
LLM이 Chain-of-Thought 과정에서 사용자의 논리적 지시(연역, 귀납 등)를 따르기보다 자신의 내부 지식에 의존하는 '추론 충돌' 현상을 최초로 규명했다. 이는 모델의 추론 과정을 외부에서 통제하기 어렵다는 점을 시사하며, 이를 해결하기 위한 메커니즘적 개입 방향을 제시한다.
핵심 기여
추론 충돌 현상의 체계적 분석
모델의 내부 지식(Sensibility)과 사용자의 논리 지시(Compliance)가 충돌할 때, LLM이 일관되게 자신의 내부 지식에 부합하는 추론 방식을 우선 선택함을 입증했다.
추론 유형의 내부 인코딩 확인
선형 프로빙을 통해 연역, 귀납, 가추 등의 추론 유형이 모델의 중간 및 후반 레이어에 선형적으로 인코딩되어 있음을 확인했다.
활성화 스티어링을 통한 제어력 향상
Contrastive Activation Addition(CAA) 기법을 사용하여 모델의 파라미터를 수정하지 않고도 지시 준수율을 최대 29%까지 향상시켰다.
핵심 아이디어 이해하기
기존의 Chain-of-Thought(CoT)는 모델이 단계별로 사고하도록 유도하지만, 그 사고의 '논리적 틀(연역적 혹은 귀납적)'을 사용자가 강제할 수 있는지에 대해서는 알려진 바가 없었다. Transformer 아키텍처는 학습 데이터에서 반복되는 추론 패턴을 임베딩 공간에 내재화하는데, 이것이 사용자의 명시적인 프롬프트 지시와 충돌할 때 모델은 내부적으로 학습된 패턴을 따르려는 경향이 강하다.
이 논문은 이러한 충돌 상황에서 모델이 겉으로는 사용자의 용어를 흉내 내면서도(Lexical Mirroring), 실제 논리 전개는 자신의 내부 지식을 따르는 현상을 발견했다. 이는 모델의 추론이 데이터와 완전히 분리된 추상적 논리 능력이 아니라, 특정 문제 인스턴스에 강하게 결합되어 있음을 의미한다.
결과적으로 연구진은 모델의 특정 레이어 활성화 값에 개입함으로써 이러한 결합을 끊을 수 있음을 보여주었다. 이는 모델의 추론 과정을 단순히 텍스트로 유도하는 것을 넘어, 내부 연산 과정에서 논리적 스키마를 직접 주입할 수 있는 가능성을 열어준다.
방법론
연구진은 연역(Deduction), 귀납(Induction), 가추(Abduction)의 세 가지 논리 유형을 강제하는 프롬프트를 설계하고, 이를 FOLIO, SPR, aNLI, RECV 데이터셋에 적용하여 모델의 반응을 측정했다. 모델이 지시된 논리 유형을 따르는지(Compliance)와 문제의 본질에 맞는 논리를 펴는지(Sensibility)를 LLM-as-a-Judge 프레임워크로 분류했다.
메커니즘 분석을 위해 각 레이어의 Residual Stream 활성화 값을 추출하여 선형 분류기(Linear Probe)를 학습시켰다. [레이어별 은닉 상태 벡터 → 선형 변환 및 Softmax → 추론 유형 예측] 과정을 통해 모델이 지시사항을 내부적으로 인지하고 있는지 확인했다.
최종적으로 Contrastive Activation Addition(CAA)을 적용했다. 지시를 준수하는 응답의 활성화 값과 준수하지 않는 응답의 활성화 값 차이를 계산하여 '스티어링 벡터'를 생성하고, 이를 추론 시 특정 레이어에 더해줌으로써 모델의 행동을 교정했다.
관련 Figure

모델이 지시된 논리 유형을 따르면서 정답을 맞히는 경우(S∩C)와 지시는 무시하지만 문제에 맞는 논리로 정답을 맞히는 경우(S∩¬C) 등을 시각화하여 연구의 핵심 평가 지표를 정의한다.
추론 충돌 상황에서 모델의 응답을 합리성(Sensible)과 준수성(Compliant) 기준으로 분류하는 2x2 매트릭스 다이어그램이다.
주요 결과
실험 결과, 모델들은 평균적으로 43.5%의 사례에서 지시보다 문제에 적합한 논리(Sensibility)를 선택했으며, 지시를 완벽히 준수한 경우는 18.6%에 불과했다. 특히 모델의 크기가 커질수록 내부 지식에 기반한 '논리적 접지(Logical Grounding)' 능력이 강화되어 지시 준수보다는 합리적인 추론을 선택하는 경향이 뚜렷해졌다.
또한 지시 준수 여부는 모델의 확신도(Confidence)와 양의 상관관계를 보였다. 모델이 지시를 어기고 자신의 지식을 따를 때 내부적인 확신도가 유의미하게 하락하는 현상이 관찰되었으며, 이는 모델이 지시와의 충돌을 내부적으로 인지하고 있음을 시사한다. CAA 기법 적용 시 OLMO3-7B-IT 모델에서 지시 준수율이 최대 29% 향상되는 성과를 거두었다.
관련 Figure

평균적으로 모델들이 지시 준수(C)보다 합리성(S)을 우선시하며, 특히 GPT-5.1 같은 고성능 모델일수록 합리성 비율이 압도적으로 높음을 보여준다.
다양한 LLM 모델별로 합리성과 준수성 비율을 나타낸 누적 막대 그래프이다.
기술 상세
본 연구는 Llama 3, Qwen 3, OLMo 3 등 다양한 오픈 소스 모델과 GPT-5.1, Gemini 3 Flash 등 상용 모델을 포함하여 광범위한 벤치마크를 수행했다. 분석 결과, 추론 유형에 대한 정보는 주로 중간에서 후반 레이어(예: 32레이어 모델의 경우 14-17번 레이어)에서 가장 명확하게 인코딩된다는 사실을 밝혀냈다.
특히 '어휘적 미러링(Lexical Mirroring)' 현상을 기술적으로 정의했는데, 이는 모델이 프롬프트에 포함된 '가장 가능성 있는'이나 '논리적으로 확실한'과 같은 키워드를 텍스트상으로는 출력하지만, 실제 논리적 구조는 그와 무관하게 전개하는 현상을 말한다. 이는 텍스트 기반의 CoT 평가가 모델의 실제 추론 과정을 왜곡할 수 있음을 보여주는 중요한 기술적 지점이다.
관련 Figure

추론 유형 및 준수 정보가 모델의 중간 레이어 이후부터 명확하게 나타나며, 후반부로 갈수록 해당 신호가 강해짐을 입증하여 스티어링의 근거를 제시한다.
레이어별로 추론 준수 여부를 예측한 프로빙 정확도 그래프이다.
한계점
본 연구는 주로 제로샷(Zero-shot) 환경에서의 지시 준수율을 다루었으며, 퓨샷(Few-shot) 학습이나 파인튜닝이 이러한 추론 충돌을 얼마나 완화할 수 있는지에 대해서는 추가 연구가 필요하다. 또한 스티어링 과정에서 모델이 지시 준수에 너무 집중한 나머지 출력 형식을 무시하는 '태스크 망각(Task-neglect)' 부작용이 관찰되었다.
실무 활용
LLM을 활용한 복잡한 논리 파이프라인 설계 시, 단순 프롬프트만으로는 모델의 추론 방식을 완전히 통제할 수 없음을 인지해야 한다. 대신 활성화 스티어링과 같은 기법을 병행하여 모델의 추론 경로를 강제할 수 있다.
- 특정 논리 구조(예: 법률 검토 시 엄격한 연역법)가 강제되어야 하는 전문 도메인 에이전트 개발
- 모델이 자신의 편향이나 내부 지식에 매몰되지 않도록 가추적 사고를 유도하는 브레인스토밍 도구
- CoT의 충실도(Faithfulness)를 높이기 위해 내부 활성화를 모니터링하는 안전 가드레일 구축
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.