Context에서 Skill로: 언어 모델은 문맥으로부터 숙련되게 학습할 수 있는가?

기존의 언어 모델은 학습 데이터에 없는 복잡하고 전문적인 문맥을 이해하는 데 한계가 있었습니다. 이 논문은 모델이 스스로 문제를 내고 풀며 정답을 맞춰가는 '자기 주도 학습' 방식을 통해, 긴 문서나 복잡한 규칙에서도 핵심 추론 기술을 스스로 추출하여 성능을 비약적으로 높이는 방법을 제시합니다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

Ctx2Skill 프레임워크 제안

인간의 레이블링이나 외부 피드백 없이도 복잡한 문맥에서 특정 기술을 자율적으로 발견, 정제 및 선택하는 자기 진화형 프레임워크를 구축했다.

멀티 에이전트 셀프 플레이 루프 도입

문제를 내는 Challenger, 문제를 푸는 Reasoner, 그리고 이를 평가하는 Judge 에이전트 간의 상호작용을 통해 모델 파라미터 업데이트 없이 자연어 기술(Skill) 세트를 진화시킨다.

Cross-time Replay 메커니즘 개발

반복적인 학습 과정에서 발생할 수 있는 과적합(Adversarial Collapse)을 방지하기 위해, 과거의 다양한 문제들을 다시 풀어보며 가장 범용적인 기술 세트를 선택하는 알고리즘을 적용했다.

CL-bench 벤치마크 성능 입증

GPT-4.1의 해결률을 11.1%에서 16.5%로, GPT-5.1은 21.2%에서 25.8%로 향상시키며 다양한 백본 모델에서 기술의 유효성과 전이 가능성을 증명했다.

핵심 아이디어 이해하기

언어 모델의 In-Context Learning은 주어진 문맥 내 정보를 활용하는 능력이지만, 문맥이 너무 길거나 기술적으로 복잡해지면 Attention 메커니즘이 핵심 정보를 놓치는 현상이 발생한다. 기존에는 이를 해결하기 위해 인간이 직접 규칙을 요약해 주거나 외부 도구를 사용했지만, 이는 비용이 많이 들고 도메인마다 매번 새로 작업해야 한다는 한계가 있다.

Ctx2Skill은 이 과정을 모델 간의 '게임'으로 치환한다. 먼저 Challenger 에이전트가 문맥을 바탕으로 까다로운 질문과 채점 기준(Rubric)을 생성한다. Reasoner 에이전트는 현재 보유한 기술 설명을 참고하여 문제를 풀고, Judge가 이를 평가한다. 만약 문제를 틀리면 Reasoner는 왜 틀렸는지 분석하여 자신의 기술 설명을 보완하고, 문제를 너무 쉽게 맞추면 Challenger는 더 어려운 문제를 내도록 스스로를 채찍질한다.

이 과정은 모델의 가중치를 직접 바꾸는 것이 아니라, 모델이 참고하는 '설명서(Skill Set)'를 업데이트하는 방식이다. 결과적으로 모델은 복잡한 문맥 속에서 어떤 규칙을 우선순위로 두어야 하는지 스스로 깨닫게 되며, 이렇게 정제된 설명서는 다른 모델에 적용해도 즉각적인 성능 향상을 가져온다.

방법론

Ctx2Skill은 다섯 가지 고정된 모델 역할을 활용하여 셀프 플레이 루프를 구성한다. Challenger는 문맥 C와 자신의 기술 S^C를 입력으로 받아 문제 t_m과 루브릭 R_m을 생성한다. Reasoner는 문맥 C와 기술 S^R을 사용하여 답안 a_m을 도출하며, Judge는 루브릭 만족 여부를 이진 결과 y_m으로 반환한다.

루팅 및 기술 공동 진화 단계에서는 Proposer와 Generator 에이전트가 핵심 역할을 수행한다. 실패한 사례는 Reasoner 측으로 전달되어 [실패한 답안 + 루브릭 → 부족한 지식 진단 → 기술 업데이트] 과정을 거친다. 성공한 사례는 Challenger 측으로 전달되어 [성공한 답안 + 기존 루브릭 → 더 정교한 검증 기준 생성 → 기술 업데이트]를 수행하여 지속적인 적대적 압력을 유지한다.

Cross-time Replay는 각 반복 회차 i에서 생성된 기술 후보 S^R_i 중 최적을 선택한다. 과거의 쉬운 문제 세트 Q^e와 어려운 문제 세트 Q^h를 구성하고, 각 기술 세트별로 해결률 ρ^e와 ρ^h를 계산한다. 최종적으로 두 해결률의 곱 [ρ^e(i) * ρ^h(i) → 최대화 → 최적 기술 세트 i* 선택]을 통해 범용성과 특수성의 균형을 맞춘 기술을 도출한다.

관련 Figure

#1Diagram
Challenger와 Reasoner가 상호작용하며 기술을 진화시키는 (a) 과정과, 과거 문제 풀을 통해 최적의 기술을 선별하는 (b) 과정을 시각화했다. 이 구조는 인간의 개입 없이도 모델이 스스로 성능을 개선할 수 있는 폐쇄 루프 시스템임을 보여준다.
Ctx2Skill의 전체 아키텍처를 보여주는 다이어그램으로, 셀프 플레이 루프와 Cross-time Replay 메커니즘을 설명한다.

주요 결과

CL-bench의 4개 카테고리(도메인 지식 추론, 규칙 시스템 적용, 절차적 과업 수행, 경험적 발견 및 시뮬레이션)에서 실험을 진행했다. GPT-4.1 기반 Ctx2Skill은 전체 해결률 16.5%를 기록하여 기본 모델(11.1%) 대비 5.4%p 향상되었으며, 이는 상위 모델인 Gemini 3 Pro(15.8%)보다 높은 수치이다.

GPT-5.1 및 GPT-5.2 모델에서도 각각 4.7%p, 3.2%p의 성능 향상을 보였다. 특히 절차적 과업 수행(Procedural Task Execution) 분야에서 GPT-4.1은 10.4%에서 17.6%로, GPT-5.2는 19.1%에서 25.4%로 큰 폭의 개선을 달성했다.

Ablation Study 결과, Challenger의 기술 진화를 제거했을 때 성능 하락이 가장 컸으며, 이는 지속적인 난이도 조절이 기술 정제에 필수적임을 시사한다. 또한 Cross-time Replay를 사용하지 않고 마지막 회차의 기술을 사용할 경우, 특정 문제에만 과적합되는 Adversarial Collapse 현상으로 인해 성능이 오히려 저하됨을 확인했다.

관련 Figure

#2Chart
대부분의 모델에서 초기 반복(Iter-1, 2)에서 생성된 기술이 가장 많이 선택되지만, 복잡한 문맥의 경우 후기 반복 기술이 선택되기도 함을 보여준다. 이는 무조건 마지막 회차를 쓰는 것보다 Cross-time Replay를 통한 선택이 중요함을 입증한다.
반복 횟수에 따른 각 백본 모델별 최적 기술 세트 선택 분포를 나타낸 그래프이다.

#3Chart
거의 모든 세부 항목에서 기술을 적용했을 때(파란색)가 적용하지 않았을 때(주황색)보다 성능이 높음을 알 수 있다. 특히 법률/규제(Legal & Regulatory) 및 워크플로 오케스트레이션 분야에서 큰 폭의 향상이 관찰된다.
CL-bench의 세부 카테고리별로 기술 적용 전후의 GPT-4.1 해결률 변화를 비교한 막대 그래프이다.

기술 상세

Ctx2Skill의 핵심은 파라미터 업데이트 없이 자연어 수준에서 기술을 최적화하는 'In-context Skill Augmentation'의 자동화이다. 기존의 AutoSkill 등이 외부 실행 피드백(코드 실행 결과 등)에 의존했던 것과 달리, 본 연구는 Judge 에이전트의 논리적 검증만을 사용하여 피드백 루프를 닫았다.

Adversarial Collapse를 해결하기 위해 도입된 Cross-time Replay는 강화학습의 Experience Replay 개념을 자연어 기술 선택에 응용한 것이다. Laplace Smoothing이 적용된 해결률 계산식 [ (성공 수 + 1) / (전체 수 + 1) ]을 통해 데이터 부족 시의 수치적 불안정성을 해소하고, 기하 평균 형태의 목적 함수를 사용하여 쉬운 문제와 어려운 문제 모두에서 강건한 기술을 선별한다.

또한, 기술의 전이 가능성(Transferability) 실험을 통해 GPT-5.1이 생성한 기술을 GPT-4.1에 주입했을 때, GPT-4.1이 스스로 생성한 기술보다 더 높은 성능(16.1% vs 16.5%로 근접)을 낼 수 있음을 보여주었다. 이는 고성능 모델이 추출한 '지식의 구조'가 하위 모델의 추론 능력을 보완하는 강력한 가이드가 될 수 있음을 의미한다.

한계점

API 비용 제약으로 인해 실험에서 반복 횟수 N과 회차당 문제 수 M을 각각 5로 제한하여 더 큰 규모에서의 성능 향상 잠재력을 완전히 탐색하지 못했다. 또한, 현재는 자연어 피드백에만 의존하고 있어 수학이나 코드와 같이 엄격한 정답 확인이 가능한 도메인에서 실행 피드백을 결합하는 연구가 추가로 필요하다.

실무 활용

Ctx2Skill은 복잡한 매뉴얼, 법률 문서, 과학 논문 등 방대한 문맥을 바탕으로 정교한 추론이 필요한 실무 환경에서 LLM의 성능을 즉각적으로 개선할 수 있는 프레임워크이다.

복잡한 소프트웨어 라이브러리의 문서를 분석하여 개발자를 위한 정확한 코딩 가이드라인 기술 추출
방대한 기업 내부 규정집에서 특정 상황에 맞는 의사결정 규칙을 스스로 학습하여 상담 에이전트에 적용
새로운 게임 규칙이나 복잡한 보드게임 룰북을 입력받아 오류 없는 게임 플레이 전략 수립
과학 실험 데이터와 논문을 바탕으로 가설 검증을 위한 논리적 추론 단계 자동 생성

코드 공개 여부: 공개

코드 저장소 보기

키워드

In-Context Learning(문맥 내 학습)Skill Augmentation(기술 증강)Multi-Agent Self-Play(멀티 에이전트 셀프 플레이)Adversarial Collapse(적대적 붕괴)CL-bench(컨텍스트 학습 벤치마크)

Context에서 Skill로: 언어 모델은 문맥으로부터 숙련되게 학습할 수 있는가?

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

Ctx2Skill 프레임워크 제안

인간의 레이블링이나 외부 피드백 없이도 복잡한 문맥에서 특정 기술을 자율적으로 발견, 정제 및 선택하는 자기 진화형 프레임워크를 구축했다.

멀티 에이전트 셀프 플레이 루프 도입

Cross-time Replay 메커니즘 개발

CL-bench 벤치마크 성능 입증

GPT-4.1의 해결률을 11.1%에서 16.5%로, GPT-5.1은 21.2%에서 25.8%로 향상시키며 다양한 백본 모델에서 기술의 유효성과 전이 가능성을 증명했다.

핵심 아이디어 이해하기

방법론

관련 Figure

주요 결과

관련 Figure

기술 상세

한계점

실무 활용

복잡한 소프트웨어 라이브러리의 문서를 분석하여 개발자를 위한 정확한 코딩 가이드라인 기술 추출
방대한 기업 내부 규정집에서 특정 상황에 맞는 의사결정 규칙을 스스로 학습하여 상담 에이전트에 적용
새로운 게임 규칙이나 복잡한 보드게임 룰북을 입력받아 오류 없는 게임 플레이 전략 수립
과학 실험 데이터와 논문을 바탕으로 가설 검증을 위한 논리적 추론 단계 자동 생성

코드 공개 여부: 공개

코드 저장소 보기

Context에서 Skill로: 언어 모델은 문맥으로부터 숙련되게 학습할 수 있는가?

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

Context에서 Skill로: 언어 모델은 문맥으로부터 숙련되게 학습할 수 있는가?

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드