핵심 요약
LLM 에이전트가 복잡하고 긴 시간이 소요되는 작업을 수행할 때 겪는 기억력과 일관성 부족 문제를 해결하기 위해 스스로 기술을 발견하고 정제하는 외부 스킬 뱅크 시스템을 제안한다. 이를 통해 모델을 매번 재학습시키지 않고도 새로운 환경에 빠르게 적응하고 고도의 전략적 판단을 내릴 수 있는 자율 에이전트 구현의 길을 제시한다.
왜 중요한가
LLM 에이전트가 복잡하고 긴 시간이 소요되는 작업을 수행할 때 겪는 기억력과 일관성 부족 문제를 해결하기 위해 스스로 기술을 발견하고 정제하는 외부 스킬 뱅크 시스템을 제안한다. 이를 통해 모델을 매번 재학습시키지 않고도 새로운 환경에 빠르게 적응하고 고도의 전략적 판단을 내릴 수 있는 자율 에이전트 구현의 길을 제시한다.
핵심 기여
COS-PLAY 공동 진화 프레임워크 제안
의사결정 에이전트와 스킬 뱅크 에이전트가 상호작용하며 함께 발전하는 구조를 설계했다. 의사결정 에이전트는 스킬을 검색해 실행하고, 스킬 뱅크 에이전트는 실행 기록에서 유용한 패턴을 추출해 라이브러리를 업데이트하는 폐쇄 루프 시스템을 구축했다.
비지도 학습 기반의 스킬 발견 및 관리 파이프라인
라벨이 없는 궤적 데이터에서 경계 제안, 세그멘테이션 추론, 계약 학습 단계를 거쳐 재사용 가능한 스킬을 자동으로 추출한다. 발견된 스킬은 병합, 분할, 폐기 과정을 통해 지속적으로 정제되어 뱅크의 효율성을 유지한다.
GRPO를 활용한 다중 어댑터 최적화
Group Relative Policy Optimization(GRPO)과 LoRA 어댑터를 사용하여 각 에이전트의 세부 기능을 독립적으로 최적화했다. 의사결정 에이전트는 스킬 검색과 행동 생성에, 스킬 뱅크 에이전트는 세그멘테이션과 계약 학습에 특화된 어댑터를 학습한다.
핵심 아이디어 이해하기
기존의 LLM 에이전트는 매 단계마다 독립적인 추론에 의존하기 때문에, 수백 단계가 넘어가는 장기적 과업에서 일관된 전략을 유지하기 어렵다. 이는 딥러닝의 고정된 가중치 내에 모든 절차적 지식을 담으려 할 때 발생하는 한계로, 문맥이 길어질수록 주의 집중력이 분산되어 핵심 목표를 놓치는 현상과 연결된다.
COS-PLAY는 이를 해결하기 위해 '스킬'이라는 추상화 계층을 도입한다. 이는 마치 사람이 복잡한 요리를 할 때 '칼질하기', '볶기' 같은 하위 루틴을 별도의 절차로 기억하는 것과 유사하다. 시스템은 에이전트의 과거 행동 궤적에서 반복되는 성공 패턴을 찾아내어, 이를 실행 조건과 기대 결과가 명시된 구조화된 프로토콜로 변환하여 외부 저장소인 스킬 뱅크에 보관한다.
결과적으로 에이전트는 매 순간 원시 행동을 고민하는 대신, 현재 상태의 임베딩과 가장 잘 맞는 스킬을 뱅크에서 검색하여 실행한다. 이 과정에서 의사결정 에이전트는 더 높은 수준의 전략에 집중할 수 있게 되며, 스킬 뱅크는 에이전트의 경험이 쌓일수록 더 정교한 기술을 제공하는 선순환 구조를 형성하여 장기적 과업 수행 능력을 비약적으로 높인다.
방법론
COS-PLAY는 의사결정 에이전트(AD)와 스킬 뱅크 에이전트(AS)로 구성된다. AD는 현재 상태 요약(ot)과 스킬 뱅크(B)를 입력으로 받아 적절한 스킬(st)을 검색하고, 이를 바탕으로 의도(zt)를 갱신한 뒤 최종 행동(at)을 결정한다. 이 과정은 π_skill, π_int, π_act라는 세 가지 역할로 분리된 신경망 모듈을 통해 수행된다.
AS는 AD가 생성한 궤적 데이터를 분석하여 스킬을 관리한다. 먼저 Boundary Proposal 단계에서 상태 변화량이나 보상 변화 등을 지표로 스킬 전환 후보 지점을 식별한다. 이후 Infer Segmentation 단계에서 후보 지점들을 조합해 전체 궤적을 가장 잘 설명하는 스킬 시퀀스를 구성한다. 이때 각 세그먼트는 기존 스킬과 매칭되거나 새로운 스킬 후보로 등록된다.
Contract Learning 단계에서는 추출된 스킬의 실행 전후 상태 변화를 수치화하여 '계약(Contract)'을 생성한다. [시작 상태의 술어 집합 → 스킬 실행 → 종료 상태의 술어 변화량]을 계산하여 해당 스킬이 보장하는 효과를 정의한다. 마지막으로 Skill Bank Maintenance 단계에서 LLM 큐레이터가 중복된 스킬을 병합하거나 성능이 낮은 스킬을 퇴출하여 뱅크의 품질을 유지한다.
주요 결과
COS-PLAY는 2048, Candy Crush, Tetris, Super Mario Bros 등 4종의 단일 플레이어 게임에서 GPT-5.4 대비 평균 25.1%의 보상 향상을 기록했다. 특히 Candy Crush에서는 806점을 기록하여 GPT-5.4의 547점 대비 47% 높은 성과를 보였다. 이는 에이전트가 단순히 눈앞의 점수를 쫓는 대신, 보드를 재구성하는 'OPTIMIZE' 스킬과 점수를 획득하는 'CLEAR' 스킬을 전략적으로 구분하여 사용했기 때문이다.
Avalon과 Diplomacy 같은 다인용 사회적 추론 게임에서도 강력한 성능을 입증했다. Diplomacy에서 COS-PLAY는 8B 규모의 작은 모델임에도 불구하고 Gemini-3.1-Pro를 8.8% 상회하는 점유율을 기록했다. 실험 결과, 스킬 뱅크를 통해 에이전트가 일관된 외교 전략을 유지하고 상대방의 의도를 더 정확히 파악할 수 있음이 확인됐다.
Ablation Study를 통해 공동 진화의 중요성도 증명됐다. 스킬 뱅크 없이 학습하거나(SFT w/o Skill), 초기 스킬 뱅크만 사용하고 업데이트하지 않은 경우(SFT + 1st Skill) 모두 성능이 크게 하락했다. 이는 정책과 스킬 뱅크가 서로의 변화에 맞춰 실시간으로 정렬될 때 최적의 성능이 나옴을 시사한다.
기술 상세
COS-PLAY 아키텍처는 Qwen3-8B를 베이스 모델로 하며, 각 기능별로 독립적인 LoRA 어댑터를 장착하여 학습 효율을 극대화했다. 의사결정 에이전트는 행동 생성과 스킬 검색을 위한 2개의 어댑터를, 스킬 뱅크 에이전트는 세그멘테이션, 계약 학습, 큐레이션을 위한 3개의 어댑터를 사용한다. 이러한 분리 구조는 서로 다른 최적화 목표 간의 충돌을 방지한다.
학습 알고리즘으로는 GRPO를 채택하여 별도의 가치 함수 네트워크 없이도 그룹 내 상대적 보상을 통해 정책을 갱신한다. 의사결정 에이전트의 보상 함수는 환경 보상뿐만 아니라 스킬 실행의 일관성을 장려하는 'Skill-following shaping'과 불필요한 스킬 전환을 억제하는 'Switching cost'를 포함한다. 이를 통해 에이전트가 스킬을 단순히 호출하는 데 그치지 않고 끝까지 완수하도록 유도한다.
스킬 뱅크 에이전트의 보상 설계에는 Viterbi 디코딩 점수를 활용하여 전체 궤적의 전역적 일관성을 평가하는 방식이 도입됐다. 또한 'Contract Learning'에서는 예측된 상태 변화와 실제 관찰된 변화 사이의 F1 점수를 계산하여, 에이전트가 스킬의 효과를 정확하게 이해하고 문서화할 수 있도록 학습시킨다.
한계점
현재 시스템은 텍스트 기반의 상태 요약에 크게 의존하고 있어, 시각적 정보가 핵심인 멀티모달 환경에서의 직접적인 적용에는 한계가 있다. 또한 궤적이 매우 길어질 경우 요약 과정에서 정보 손실이 발생하여 스킬의 관련성이 떨어질 수 있는 위험이 존재한다.
실무 활용
복잡한 워크플로우를 가진 자율 에이전트 시스템 개발에 직접 활용 가능하다. 특히 반복적인 작업 패턴이 존재하지만 환경이 가변적인 도메인에서 효과적이다.
- 복잡한 웹 서비스 인터페이스를 조작하는 자동화 에이전트의 스킬 라이브러리 구축
- 반복적인 코딩 패턴이나 리팩터링 절차를 학습하여 제안하는 코딩 에이전트
- 다양한 시나리오가 존재하는 전략 시뮬레이션 게임의 AI 플레이어 개발
- 장기적인 대화 맥락을 유지하며 특정 목표를 달성해야 하는 협상 에이전트
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.