TL;DR
대형 언어모델은 여전히 까다로운 알고리즘 문제의 추론에 취약하다. Solvita는 4개의 특화된 에이전트 Planner/Solver/Oracle/Hacker를 통해 문제 해결 전략을 지속적으로 개선하되 LLM 파라미터를 고정한다. 이를 통해 과거 에피소드를 활용한 학습이 가능해져 벤치마크에서 단일 패스 기반 접근을 크게 능가한다.
왜 중요한가
대형 언어모델은 여전히 까다로운 알고리즘 문제의 추론에 취약하다. Solvita는 4개의 특화된 에이전트 Planner/Solver/Oracle/Hacker를 통해 문제 해결 전략을 지속적으로 개선하되 LLM 파라미터를 고정한다. 이를 통해 과거 에피소드를 활용한 학습이 가능해져 벤치마크에서 단일 패스 기반 접근을 크게 능가한다.
핵심 기여
에이전트-에볼루션 프레임워크
Planner, Solver, Oracle, Hacker의 상호 작용으로 문제 해결-테스트-공격의 피드백 루프를 구성하고, 각 에이전트에 그래프-구조 지식 네트워크를 연결한다.
weight-free 학습 신경망 업데이트
대형 모델 자체를 미세조정하지 않고도 네트워크의 라우팅 가중치를 강화학습으로 업데이트해 경험을 축적한다.
패치 기반 수리와 내부 인증
Solver의 패치-수정 방식과 Oracle의 내부 테스트 생성/인증으로 합법적 불일치를 활용한 강화 학습 신호를 제공한다.
실험적 증거와 강건성
CodeContests, APPS, AetherCode, Codeforces Live 등에서 SOTA에 근접 혹은 이를 능가하는 성능과 비용-효율적 운영을 보인다.
핵심 아이디어 이해하기
- 기존의 단일 패스 LLM 코딩은 문제 구조를 이해하고 코드를 작성하는 데 필요한 다단계 정보를 한 번에 처리한다. 2) Solvita는 문제를 형식적 표현으로 재구성하고, 이 표현에 맞춘 태그-예상 전략-코드-검증 경로를 연결하는 다중 에이전트를 통해 문제해결의 흐름을 조각낸다. 3) 각 에이전트의 지식 네트워크에 의해 과거 실패/성공 사례가 라우팅 가중치로 학습되며, 이는 전체 파이프라인의 성능 향상으로 이어진다.
방법론
전체 접근은 네 가지 에이전트의 협업과 보상 신호의 공유에 기반한다. Planner는 문제를 형식화하고 태그를 예측한다. Solver는 선택된 전략으로 C++ 구현을 패치-수정한다. Oracle은 내부 테스트를 구성하고 인증 비율을 평가한다. Hacker는 악의적 테스트를 설계해 취약점을 찾고, 그 결과는 모든 네트워크에 반영된다. 학습은 각 문제마다 반대 사례를 통해 REINFORCE로 가중치를 업데이트한다. 데이터는 Codeforces/CodeContests/APPS/AetherCode에서 수집-정규화-필터링되어 8,017개 문제의 최종 코퍼스로 작동한다.
주요 결과
주요 백본(GPT-5.4)으로 CodeContests/ APPS/ AetherCode에서 Solvita는 pass@1에서의 개선이 뚜렷하다. CC: 82.4%, APPS: 67.7%, AC: 49.3% 수준으로 단일 패스 대비 크게 향상됐다. Patch-based 수리 방식은 전체 재생성보다 효율적이며, Solver 네트워크의 기여가 가장 크고 Hacker/Oracle의 보조 기여도 안정적으로 증가한다. Codeforces 실전 대회에서도 Legendary Grandmaster에 근접하는 성능을 보이고, cold-start 비용과 악성 입력에 대한 내성 등 실전적 특성도 제시된다.
기술 상세
네 가지 에이전트와 각자의 지식 네트워크를 연결하는 그래프 구조를 사용한다. Planner의 태깅-전략 예측, Solver의 기능-블록 기반 패치, Oracle의 내부 테스트-인증, Hacker의 공격 경로를 모두 하나의 프레임워크에서 관리한다. 각 네트워크의 업데이트는 REINFORCE를 통해 수행되며, 문제-태그-전략 간의 경로가 학습된다. 데이터 파이프라인은 30,018개 문제에서 시작해 Completeness → Tag Load Balancing → Deduplication → Difficulty Pruning의 네 단계 필터링으로 8,017개 문제를 최종 corpus로 확보한다.
한계점
한계점으로 cold-start 비용, 해커의 스코프 제약, patch-repair drift를 제시한다. 미래 방향으로는 오프라인 코퍼스의 확장, 다른 검증 도메인으로의 확장, 파라미터 업데이트 없이도 지식 네트워크를 더 확장하는 방안이 논의된다.
실무 활용
대형 언어모델을 재학습 없이도 누적적 경험으로 개선할 수 있는 방법을 제시한다. 이는 코드 작성 보조 도구, 자동 채점 시스템, 교육용 도구 등에 바로 적용 가능하다.
- 경험 축적 기반의 코드 작성 도구 개발
- 인증된 내부 테스트 자동 생성 및 검증 파이프라인 구축
- 대규모 멀티-에이전트 협업 시스템 설계
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.