사고를 통한 회상: 추론이 대형 언어 모델의 파라미터 지식을 깨우는 방법

왜 중요한가

복잡한 수학 문제뿐만 아니라 단순한 사실 확인 질문에서도 LLM의 '추론(Reasoning)' 과정이 지식 추출 성능을 크게 향상시킨다는 점을 발견했다. 이는 모델이 단순히 답을 찾는 것이 아니라, 중간 단계의 사고 과정을 거치며 뇌의 연상 작용처럼 관련 지식을 스스로 자극하여 불러온다는 새로운 메커니즘을 제시한다.

핵심 기여

파라미터 지식 경계 확장 입증

추론 모드(Reasoning ON)가 단순 사실 질문에 대한 pass@k 성능을 일관되게 향상시키며, 특히 모델의 기본 능력이 낮을수록 '숨겨진 지식'을 인출하는 효과가 큼을 증명했다.

계산 버퍼 효과(Computational Buffer Effect) 규명

의미 없는 더미 토큰("Let me think")을 생성하는 것만으로도 모델이 잠재적 연산을 수행할 시간을 확보하여 정답률이 상승하는 현상을 확인했다.

사실적 프라이밍(Factual Priming) 메커니즘 발견

추론 과정에서 질문과 관련된 사실들을 나열하는 '생성적 자기 검색'이 정답 인출을 돕는 가교 역할을 수행하며, 이것이 추론에 의한 성능 향상의 주된 요인임을 밝혔다.

추론 단계 환각의 위험성 경고

중간 추론 과정에서 잘못된 사실(환각)이 포함될 경우 최종 답변에서도 환각이 발생할 확률이 급격히 높아지는 상관관계를 대규모 감사를 통해 입증했다.

핵심 아이디어 이해하기

기존 LLM은 질문을 받으면 즉시 다음 토큰을 예측하는 방식으로 작동하며, 이는 복잡한 지식을 인출할 때 연산 깊이의 한계에 부딪힌다. Transformer 아키텍처에서 각 레이어는 고정된 연산량을 가지므로, 매우 희귀하거나 복잡하게 얽힌 파라미터 지식은 단 한 번의 Forward Pass만으로 정확히 활성화되지 못하는 경우가 많다. 이 논문은 '추론' 과정이 단순히 논리적 단계를 밟는 것 이상의 역할을 수행함을 보여준다. 첫째, 추가 토큰 생성은 모델에게 더 많은 연산 단계(Computational Buffer)를 제공하여 잠재적인 계산을 수행하게 한다. 둘째, 관련된 사실들을 먼저 뱉어내는 과정이 인간의 '연상 작용'처럼 작동하여, 뇌의 신경망에서 관련 개념의 활성화 문턱값을 낮추는 '프라이밍(Priming)' 효과를 일으킨다. 결과적으로 추론은 모델 내부에 이미 존재하지만 직접적으로는 닿지 않던 '잠재적 지식'을 표면으로 끌어올리는 도구가 된다. 이는 추론 모델이 수학이나 코딩 같은 논리적 작업뿐만 아니라, 단순 지식 검색 작업에서도 강력한 성능을 발휘하는 근본적인 이유를 설명한다.

방법론

하이브리드 모델 실험 설계. 추론 모드를 켜고 끌 수 있는 Gemini-2.5 및 Qwen3 모델을 사용하여 동일한 파라미터 지식 상태에서 추론의 순수 효과를 격리했다. SimpleQA-Verified와 EntityQuestions 데이터셋을 활용해 질문의 복잡도와 지식 인출 난이도를 구분하여 분석했다. 계산 버퍼 효과 검증을 위해 모델의 원래 추론 텍스트를 의미 없는 문구인 "Let me think"로 대체하고 길이를 조절하며 성능 변화를 측정했다. [입력: 질문 + 더미 토큰 시퀀스] → [연산: Transformer 레이어 반복 통과] → [출력: 최종 답변] 과정을 통해, 의미 없는 토큰이라도 연산 횟수가 늘어나면 정답률이 상승함을 확인했다. 사실적 프라이밍 실험에서는 추론 과정에서 언급된 사실들만 추출하여 모델에게 컨텍스트로 제공한 뒤 답변하게 했다. [입력: 질문 + 추출된 관련 사실 리스트] → [연산: Attention Mechanism을 통한 관련 정보 참조] → [출력: 최종 답변] 순으로 진행했을 때, 추론 모드를 켰을 때의 성능 이득 대부분이 회복됨을 통해 메커니즘을 증명했다.

주요 결과

메인 벤치마크 결과, Qwen3-32B 모델의 경우 SimpleQA-Verified에서 추론 모드를 켰을 때 pass@100 성능이 끄기 모드 대비 약 2배 가까이 향상되었다. Gemini-2.5-Flash와 Pro 모델에서도 일관된 성능 향상이 관찰되었으며, 특히 모델의 기본 체급이 낮을수록 추론에 의한 지식 인출 효과(Ω 지표)가 더 크게 나타났다. 환각 분석 결과, 추론 과정에 환각이 없는 '깨끗한(Clean)' 트레이스에서는 SimpleQA 기준 41.4%의 정답률을 보인 반면, 환각이 포함된 트레이스에서는 26.4%로 급락했다. 이는 중간 단계의 사실적 정확성이 최종 결과의 신뢰도와 직결됨을 의미한다. 더미 토큰을 활용한 실험에서 토큰 길이가 2048개(2^11)까지는 성능이 향상되다가 그 이후로는 오히려 하락하거나 정체되는 비단조적(Non-monotonic) 스케일링 패턴을 보였다.

실무 활용

추론 모델을 사용할 때 단순히 논리적 문제뿐만 아니라 지식 집약적인 작업에서도 CoT를 활성화하는 것이 유리함을 시사한다. 또한 추론 과정에서 출력되는 사실들의 정확성을 검증함으로써 최종 답변의 신뢰도를 실시간으로 필터링할 수 있는 전략을 제시한다.

지식 집약적 QA 시스템에서 답변 생성 전 관련 사실을 먼저 나열하도록 유도하여 정확도 향상
추론 과정 내의 사실 관계를 실시간 검색(Search)으로 검증하여 최종 답변의 환각 방지
모델 학습 시 중간 단계의 사실적 정확성에 대해 보상을 주는 프로세스 보상 모델(PRM) 설계

기술 상세

연구팀은 pass@k 지표를 확장하여 추론의 효과를 정량화하는 새로운 메트릭 Ω(N)을 정의했다. [각 k값에서의 pass@k 개선율을 입력으로] → [k에 비례하는 가중치를 곱해 합산하는 연산을 수행해] → [단일 수치 Ω를 얻고] → [이 숫자가 클수록 모델이 추론을 통해 자신의 지식 한계를 더 효과적으로 확장했음을 의미한다.] 또한 '생성적 자기 검색(Generative Self-retrieval)' 개념을 도입하여 모델이 외부 도구 없이 자신의 파라미터 내에서 관련 정보를 먼저 인출하여 작업 기억(Working Memory)에 올리는 과정을 인지 심리학의 프라이밍 이론으로 해석했다. 실험에서는 Gemini-2.5-Flash를 자동 평가자 및 환각 검증기로 활용하여 추론 트레이스 내의 개별 문장 단위 사실성을 정밀하게 감사(Audit)하는 파이프라인을 구축했다.

한계점

추론 트레이스 내의 환각이 최종 답변의 환각을 유발하는 인과 관계는 명확히 확인되었으나, 더미 토큰을 통한 계산 버퍼 효과가 정확히 어떤 내부 표현을 정제하는지에 대한 심층적인 분석은 부족하다. 또한 특정 길이 이상의 더미 토큰이 성능을 저하시키는 구체적인 이유에 대해서는 추가 연구가 필요하다.

키워드

LLM(대형 언어 모델)Reasoning(추론)Parametric Knowledge(파라미터 지식)Chain-of-Thought(사고의 사슬)Hallucination(환각)Factual Priming(사실적 프라이밍)