활성 정보 탐색을 활용한 컨텍스트 학습

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

대형언어모델의 파라미터를 업데이트하지 않고도 새로운 정보나 도메인 지식을 효과적으로 활용하기 어렵다. 본 연구는 외부 근거를 활용하는 컨텍스트 최적화와 빔 탐색 기반의 탐색-확장 학습을 통해, 컨텍스트의 품질과 일반화 가능성을 높이고 다양한 도메인에서 데이터-효율적 성능 향상을 보인다.

왜 중요한가

핵심 기여

Beam-search-guided context optimization with external grounding

사전 학습 가중치를 바꾸지 않고 컨텍스트를 다중 후보로 확장하고 검증 데이터로 평가하는 빔 탐색 기반 학습으로, 외부 정보의 품질 차이를 효과적으로 필터링한다.

Integration of information-seeking tools

Optimizer가 WikipediaSearchTool와 BrowserUseTool을 통해 필요 지식을 확인하고 외부 자료를 컨텍스트에 반영하도록 구성하며, 도메인별 지식의 외부 grounding을 가능하게 한다.

Data-efficient cross-domain gains

저자들은 Flores+, HealthBench, LiveCodeBench, Humanity’s Last Exam 등에서 데이터 효율적으로 일관된 성능 향상을 보였고, 32 샘플 수준에서도 고성능의 수렴 경로를 찾음을 보인다.

Transferability across models

Gemini-2.5-Flash에서 학습된 컨텍스트가 Gemini-3-Flash로 효과적으로 일반화되며, 더 강력한 모델에서도 일반화 도움이 됨을 보인다.

핵심 아이디어 이해하기

단계 1: 학습을 파라미터가 아닌 상태 S를 최적화하는 문제로 본다. 상태 S는 컨텍스트 C로 표현되며, M은 고정 가중치를 가진 인퍼런서, O는 컨텍스트를 업데이트하는 옵티마이저다. 단계적으로 입력 X를 기반으로 예측 ŷ를 만들고 보상 R을 받으면, O는 B를 통해 S를 업데이트한다. 목표는 S*를 찾아 기대 보상 R를 최대화하는 것이다. 단계 2: 컨텍스트를 외부 근거로 강화하기 위해 External Grounding 도구를 도입하고, Sequential Training의 한계를 극복하기 위해 Beam Search를 통해 여러 후보 컨텍스트를 병렬 탐색한다. 단계 3: 탐색의 효과는 데이터 효율성 증가, 노이즈 감소, 다양한 모델 간의 일반화에서 확인된다.

방법론

패러다임: Λ = ⟨M, S, O, D, R⟩. M: 입력 X와 상태 S에서 예측 Ŷ를 생성, S의 상태를 업데이트하는 O를 가진다. S는 디스크리트 컨텍스트 C로 표현되고, D는 작업 공간 분포, R은 성능 피드백이다. 수식적 요약: S* = arg max_S∈S E_{x∼D}[R(x, M(x; S))]. 패 frozen-weight 인스턴스에서 컨텍스트 학습은 실행기(Executor)와 최적화기(Optimizer)로 구성되며, 3단계: 1) Forward: Executor가 컨텍스트를 사용해 태스크를 수행, 2) Loss: 평가 신호를 얻어 보상 R를 계산, 3) Update: Optimizer가 피드백으로 컨텍스트를 업데이트한다. 3.3 컨텍스트 관리 도구는 외부 구조화된 데이터베이스를 사용하며, write/read 연산(초기화, 추가/삭제/업데이트)과 검색(키워드, 임베딩 유사도, llm_search) 및 버전 관리(브랜치, 커밋, 체크아웃) 기능을 제공한다. 정보 탐색 도구로 WikipediaSearchTool(위키피디아)과 BrowserUseTool(웹 브라우징)을 도입해 필요 지식을 검증하고 보강한다. 3.4 Sequential Training의 문제를 Beam Search로 완화하며, 확장(expansion)과 선택(selection) 단계로 구성된다. 확장 단계에서 각 후보 컨텍스트에 대해 L 업데이트 만큼의 학습을 수행하고, 선택 단계에서 Top-K 컨텍스트를 보존한다. 알고리즘은 버전 관리로 구현되며, 수학적 도입 없이도 구체적 업데이트 경로를 탐색한다. [입력 -> 연산(컨텍스트 확장) -> 결과(검증 점수) -> 의미(개선된 컨텍스트)] 패턴으로 설명 가능하다.

주요 결과

주요 결과:

LRMT(FLORES+)에서 BeamSearch-IS는 평균 34.51(BoN 31.94, Seq 31.13, Gemini-2.5-Pro 30.37)을 기록하며 Seq-IS보다 성능이 높다.
HealthBench에서 BeamSearch-IS는 0.5026으로 Seq-IS보다 우수하고 Gemini-2.5-Pro와 비등한 성능을 보였다(0.5030). Emergencies 등 테마에서 강점 확인.
LiveCodeBench/HLE에서 BeamSearch-IS는 LiveCodeBench에서 33.9% (pass@1), HLE에서 8.63%의 Avg. 정확도으로 최고 성과를 기록하였다.
Gemini-3-Flash에 trained context를 적용하면 BeamSearch-IS가 Magahi 번역에서 52.12까지 도달했고 HealthBench에서 0.6624까지 증가하는 등 전이 성능이 향상된다. Table 3 참조: Gemini-3-Flash의 수치들: BeamSearch-IS 34.40 / 52.12 / 31.25 / 32.58 / 29.38 / 44.99 / 46.20 / 0.6624.

기술 상세

시스템 구성: M(인퍼런서), S(컨텍스트 C), O(컨텍스트 업데이트), D(태스크 분포), R(보상). S* = arg max_S E_{x∼D}[R(x, M(x; S))]. 2) 컨텍스트 학습: Executor는 주어진 컨텍스트로 태스크를 수행하고, Optimizer는 피드백(B)을 바탕으로 컨텍스트를 업데이트한다. 3) 컨텍스트 관리 도구: 초기화, 추가, 삭제, 업데이트, 검색(키워드/임베딩 유사도/LLM 탐색) 및 버전 관리(브랜치/체크아웃/커밋). 4) 정보 탐색 도구: WikipediaSearchTool, BrowserUseTool. 5) Beam Search: 후보 컨텍스트 ℂ_t의 수를 K로 두고, 각 후보에 대해 M개의 파생 컨텍스트를 생성하고, 검증 데이터로 평가한 뒤 Top-K를 남긴다. Elitism은 이전의 최상의 컨텍스트를 보존하고, 새 후보가 모두 나쁘면 이전 상태를 유지한다. 6) 라인별 업데이트 흐름: 확장(expansion) 단계에서 각 후보에 대해 L 업데이트를 수행하고, 점수(Validation)로 후보를 선별한 뒤, Phase 2에서 Top-K를 선택한다.

한계점

기반 모델의 컨텍스트 활용 능력에 의존하므로 executor의 컨텍스트 활용이 떨어지면 효과가 제한될 수 있다. 2) 구성된 컨텍스트의 대부분은 인스턴스-특정하고 희소성이 높아, 테스트 분포의 다양성을 충분히 포착하지 못하면 일반화에 한계가 있을 수 있다.

실무 활용

외부 정보 탐색을 포함한 컨텍스트 최적화가 데이터 효율성과 다양한 도메인 일반화에 기여함. beam-search 기반의 다중 후보 탐색으로 노이즈를 억제하고 고품질 컨텍스트를 선별하는 것이 효과적임.

저자원 언어 번역에서 도메인 사전/사전 학습 자료를 활용한 컨텍스트 보강
의료 챗봇에서 의학 가이드라인과 최신 자료를 동적으로 확인해 대화 품질 개선
판단이 중요한 리커링이 필요한 코딩/논리 문제에서 외부 증거를 사용한 해결 계획 강화
다양한 LLM 간 컨텍스트 재사용성 향상 및 모델 간 지식 전달

코드 공개 여부: 미확인

키워드

컨텍스트 엔지니어링활성 정보 탐색빔 탐색RAG외부 근거 제시LLM 컨텍스트 최적화