핵심 요약
기존 언어 모델은 배포 후 발생하는 수많은 상호작용 경험을 활용하지 못하고 버리지만, OEL은 이를 지식으로 변환해 모델을 스스로 진화시킨다. 인간의 개입이나 복잡한 보상 설계 없이도 모델이 실전 경험을 통해 똑똑해지고 답변 속도까지 빨라질 수 있음을 입증했다.
왜 중요한가
기존 언어 모델은 배포 후 발생하는 수많은 상호작용 경험을 활용하지 못하고 버리지만, OEL은 이를 지식으로 변환해 모델을 스스로 진화시킨다. 인간의 개입이나 복잡한 보상 설계 없이도 모델이 실전 경험을 통해 똑똑해지고 답변 속도까지 빨라질 수 있음을 입증했다.
핵심 기여
온라인 경험 학습(OEL) 프레임워크 제안
배포 중 수집된 상호작용 궤적에서 전이 가능한 경험 지식을 추출하고, 이를 모델 파라미터에 내재화하는 2단계 반복 루프를 구축했다.
보상 및 레이블이 필요 없는 자가 개선 메커니즘
인간의 주석이나 명시적인 보상 모델 없이 텍스트 기반 환경 피드백만으로 모델 성능을 향상시키는 reward-free 학습을 실현했다.
온폴리시 문맥 증류(On-Policy Context Distillation) 적용
모델이 생성한 데이터에 대해 지식 기반 교사 모델의 행동을 모방하게 함으로써, 외부 지식 없이도 추론 성능을 유지하고 분포 외 데이터에 대한 망각을 방지했다.
핵심 아이디어 이해하기
LLM은 프롬프트에 정보를 넣으면 즉시 이해하는 In-context learning 능력이 있지만, 정보가 많아질수록 문맥 창이 꽉 차고 연산 비용이 급증하는 한계가 있다. OEL은 이 '임시 기억'인 문맥 정보를 모델의 '장기 기억'인 가중치로 옮기는 원리를 활용한다. 먼저 모델이 환경과 대화하며 얻은 파편화된 정보를 핵심 규칙과 전략이라는 형태의 경험 지식으로 요약하여 추출한다. 그 다음, 이 지식을 프롬프트에 넣은 똑똑한 상태의 모델을 지식이 없는 기본 모델이 모방하도록 학습시키는 문맥 증류 기법을 사용한다. 결과적으로 모델은 긴 설명 없이도 복잡한 문제를 해결할 수 있는 직관을 가중치 내에 갖게 되며, 이 과정을 반복할수록 더 높은 수준의 문제 해결 능력을 갖추게 된다.
방법론
OEL은 추출과 통합이라는 두 단계의 반복 루프로 작동한다. 추출 단계에서는 모델 pi_theta가 환경 E에서 수집한 다회차 궤적 tau를 입력으로 받아 전이 가능한 지식 e를 생성한다. [이전 지식 e_{i-1}과 현재 궤적 tau_i를 입력으로] -> [추출 모델 pi_extract가 재귀적 연산을 수행해] -> [새로운 지식 조각 e'_i를 출력하고] -> [이를 기존 지식과 결합하여 누적된 경험 지식 e_i를 형성한다]. 통합 단계에서는 온폴리시 문맥 증류를 통해 이 지식을 모델 가중치에 내재화한다. [지식이 없는 학생 모델의 출력 분포와 지식이 주입된 교사 모델의 출력 분포를 입력으로] -> [토큰별 역 KL 발산(Reverse KL Divergence)을 계산하여] -> [두 분포 사이의 차이를 나타내는 손실값 L(theta)를 얻고] -> [이 값을 최소화하는 방향으로 가중치를 갱신한다]. 이 과정은 인간의 보상 신호 없이 오직 텍스트 피드백만으로 모델을 개선하며, 업데이트된 모델을 다시 배포하여 더 나은 데이터를 얻는 선순환 구조를 만든다.
주요 결과
Frozen Lake와 Sokoban 환경에서 Qwen3 모델군을 대상으로 실험한 결과, 반복 회차가 거듭될수록 성공률이 비약적으로 상승했다. Qwen3-1.7B 모델은 Frozen Lake에서 초기 10% 미만의 성공률을 보였으나, 3회 반복 후 약 45%까지 성능이 개선됐다. 또한 경험 지식이 내재화됨에 따라 응답 길이가 초기 대비 약 70% 수준으로 줄어들어 토큰 효율성이 크게 향상됐다. IF-Eval을 통한 일반 능력 평가에서는 온폴리시 증류 방식 덕분에 기존 오프폴리시 방식과 달리 초기 모델의 지시 이행 능력을 그대로 유지하며 파괴적 망각을 방지하는 효과가 확인됐다. 모델 크기가 커질수록 더 고품질의 궤적을 생성하여 학습 효율이 증폭되는 규모의 경제 효과도 나타났다.
실무 활용
인간의 레이블링 없이도 배포된 모델이 스스로 성능을 높일 수 있어 유지보수 비용을 획기적으로 줄인다. 특히 텍스트 기반의 피드백이 명확한 에이전트 환경에서 즉각적인 성능 향상을 기대할 수 있다.
- 사용자 상호작용을 통한 고객 상담 챗봇의 답변 정확도 자가 개선
- 복잡한 게임 환경 내 AI 에이전트의 전략 수립 및 최적화
- 추론 비용 절감을 위한 LLM의 사고 과정 압축 및 효율화
기술 상세
OEL 아키텍처는 보상 모델(Reward Model)을 텍스트 기반의 지식 추출기로 대체하여 강화학습의 복잡성을 해결한다. 수학적으로는 역 KL 발산을 목적 함수로 사용하여 학생 모델이 교사 모델의 높은 확률 영역(Mode)을 정확히 추종하도록 강제하며, 이는 생성의 안정성을 높인다. 기존의 문맥 증류 연구들이 고정된 데이터셋을 사용하는 오프폴리시 방식이었던 것과 달리, OEL은 모델이 현재 정책으로 직접 생성한 궤적을 사용하는 온폴리시 방식을 채택하여 훈련과 추론 사이의 분포 불일치(Distribution Shift)를 제거했다. 구현 측면에서는 지식 추출 시 'EXPERIENCE ITEM'이라는 구조화된 형식을 사용하여 전이 가능성을 높였으며, 지식 축적 시 컨텍스트 윈도우의 한계를 고려해 최대 토큰 길이를 제한하는 전략을 사용했다. 이러한 구조는 서버 측에서만 학습이 이루어지면서도 사용자 측의 실제 환경 변화를 모델에 지속적으로 반영할 수 있는 확장성을 제공한다.
한계점
텍스트 기반 게임 환경인 Frozen Lake와 Sokoban에서 주로 평가되었으며, 더 복잡하고 개방적인 실제 세계 시나리오에서의 확장성은 추가 검증이 필요하다. 또한 지식 추출 단계에서 사용되는 모델의 성능이 전체 학습 루프의 품질을 결정하는 병목 현상이 발생할 수 있다.
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료