핵심 요약
긴 문서를 처리할 때 모델이 길을 잃는 문제를 해결하기 위해, 단순히 문서를 쪼개서 다시 묻는 방식보다 모델 스스로 자신의 답변이 얼마나 확실한지 판단하게 하는 것이 더 효과적임을 입증했다. 이를 통해 추가적인 학습 없이도 긴 문맥에서 정보를 정확하게 추출하고 추론하는 능력을 크게 높였다.
왜 중요한가
긴 문서를 처리할 때 모델이 길을 잃는 문제를 해결하기 위해, 단순히 문서를 쪼개서 다시 묻는 방식보다 모델 스스로 자신의 답변이 얼마나 확실한지 판단하게 하는 것이 더 효과적임을 입증했다. 이를 통해 추가적인 학습 없이도 긴 문맥에서 정보를 정확하게 추출하고 추론하는 능력을 크게 높였다.
핵심 기여
SRLM 프레임워크 제안
세 가지 내부 불확실성 신호(자기 일관성, 추론 경로 길이, 언어화된 신뢰도)를 결합하여 최적의 컨텍스트 상호작용 프로그램을 선택하는 프레임워크를 구축했다.
재귀 메커니즘의 한계 규명
기존 RLM의 핵심인 재귀적 호출이 성능 향상의 주된 요인이 아니며, 오히려 짧은 문맥에서는 성능을 저하시킬 수 있음을 실험적으로 증명했다.
의미론적 작업에서의 강점 확인
단순 검색 위주의 작업뿐만 아니라 대화 이력 이해나 문서 요약과 같이 깊은 의미 파악이 필요한 작업에서 자기 성찰 기반 탐색이 더 일관된 성능을 보였다.
핵심 아이디어 이해하기
Transformer 아키텍처는 Attention 메커니즘을 통해 문맥을 파악하지만, 입력 시퀀스가 길어질수록 중요한 정보를 놓치거나 엉뚱한 정보에 주의를 뺏기는 현상이 발생한다. 기존의 Recursive Language Models(RLM)은 긴 문맥을 작은 단위로 쪼개어 재귀적으로 질문하는 방식으로 이를 해결하려 했으나, 어떤 경로로 질문을 쪼개고 결과를 합칠지 결정하는 과정에서 발생하는 불확실성 문제는 해결하지 못했다. SRLM은 모델이 생성한 여러 개의 실행 프로그램 중 가장 신뢰할 수 있는 것을 고르는 자기 성찰 원리를 도입한다. 모델이 답변을 내놓을 때 스스로 신뢰도를 말하게 하거나, 정답에 도달하기까지의 추론 과정이 너무 길어지지는 않았는지 등을 체크하여 가장 논리적이고 간결한 경로를 선택한다. 이는 사람이 어려운 문제를 풀 때 여러 가지 풀이법을 시도해보고 가장 깔끔하고 스스로 확신이 드는 풀이를 선택하는 것과 같다. 결과적으로 명시적인 재귀 호출 없이도 긴 문맥 내에서 필요한 정보를 정확히 찾아내어 통합하는 능력이 강화되었으며, 특히 모델의 기본 컨텍스트 창 크기 내외의 문서에서도 안정적인 성능 향상을 이끌어냈다.
방법론
긴 컨텍스트를 외부 변수로 취급하고 모델이 이를 슬라이싱하거나 쿼리하는 프로그램을 생성하는 REPL 환경을 구축한다. 모델은 주어진 질문에 대해 K개의 독립적인 후보 프로그램을 샘플링하며 각 프로그램은 서로 다른 컨텍스트 탐색 경로를 가진다. 세 가지 불확실성 신호를 정의한다. 첫째, Sampling-based Uncertainty는 K개의 샘플 중 가장 빈도가 높은 답변을 선택하고 이에 동의하는 프로그램 집합을 필터링한다. [후보 답변 분포 입력 → 빈도 계산 → 다수결 답변 도출 → 일관된 프로그램 선별]. 둘째, Semantic Uncertainty는 각 단계에서 모델이 직접 출력한 신뢰도 점수를 로그 공간에서 합산하여 산출한다. [단계별 신뢰도 텍스트 입력 → 수치 추출 및 정규화 → 로그 합산 → 전체 경로의 의미론적 확신도 측정]. 셋째, Behavioral Uncertainty는 생성된 토큰의 총 길이를 측정하며 불확실할수록 추론이 길어진다는 가정을 바탕으로 한다. 최종적으로 신뢰도 점수와 추론 길이를 곱하여 결합 점수를 계산하고 이 점수가 가장 높은 프로그램을 최적의 경로로 선택한다. [신뢰도 점수와 추론 길이 입력 → 곱셈 연산 → 최종 불확실성 점수 도출 → 최적 프로그램 결정].
주요 결과
BrowseComp+, OOLONG, LongBench-v2 등 주요 롱 컨텍스트 벤치마크에서 실험한 결과, SRLM은 기존 SOTA인 RLM 대비 최대 22%의 정확도 향상을 기록했다. 특히 Qwen3-Coder-480B와 GPT-5 두 가지 백본 모델 모두에서 일관된 성능 우위를 보였다. 컨텍스트 길이에 따른 분석에서 RLM은 모델의 기본 컨텍스트 창 내에서 오히려 베이스 모델보다 성능이 떨어지는 경우가 발생했으나, SRLM은 짧은 문맥과 긴 문맥 모두에서 견고한 성능 이득을 제공했다. 이는 불확실성 기반 선택이 불필요한 재귀 오버헤드를 방지함을 의미한다. Ablation Study를 통해 세 가지 신호를 모두 결합했을 때 가장 높은 성능이 나타남을 확인했다. 단일 신호만 사용했을 때보다 결합된 신호가 모델의 내부 상태를 더 정확하게 반영하여 최적의 경로를 찾아냈다.
실무 활용
별도의 모델 학습 없이 프롬프트와 실행 환경 설정만으로 긴 문서 처리 능력을 즉시 개선할 수 있다. 특히 법률 문서 분석, 대규모 코드베이스 이해, 긴 대화 기록 요약 등 실무적인 롱 컨텍스트 작업에 바로 적용 가능하다.
- 수만 줄의 코드 저장소에서 특정 버그의 원인이 되는 로직 탐색 및 수정 제안
- 수백 페이지 분량의 기술 문서 뭉치에서 여러 문서에 흩어진 정보를 조합하여 답변 생성
- 장기 프로젝트의 수개월 치 회의록과 메일 이력을 바탕으로 프로젝트 진행 상황 요약
기술 상세
SRLM은 컨텍스트 상호작용을 프로그램 실행으로 외재화하는 RLM 아키텍처를 계승하되 경로 선택 메커니즘을 불확실성 추정으로 대체했다. 이는 추론 시점에서의 스케일링을 가능하게 하며 명시적인 도구 호출 형태의 재귀 없이도 복잡한 추론을 수행한다. 수학적 기반으로서 결합 점수 식은 베이지안 불확실성 추정의 대리 지표로 작동한다. 언어화된 신뢰도는 모델의 내부 확률 분포를 캡처하고 추론 길이는 에피스테믹 노력을 측정하는 행동 지표로 기능하여 상호 보완적인 역할을 한다. 기존 RLM과의 결정적 차이는 재귀가 아닌 탐색에 집중한다는 점이다. 실험 결과 강력한 모델에서는 재귀적 호출이 오히려 성능을 저해할 수 있으며 병렬로 생성된 여러 프로그램 중 최적을 고르는 것이 시간 대비 효율성 측면에서도 유리함을 입증했다.
한계점
현재의 자기 성찰 방식은 모델이 직접 출력하는 신뢰도 점수에 의존하므로 모델의 캘리브레이션 능력이 부족할 경우 잘못된 경로를 선택할 위험이 있다. 또한 다중 샘플링 방식은 추론 비용을 증가시키는 요인이 된다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료