핵심 요약
기존 코딩 모델들이 단일 학습으로 여러 도메인을 커버하기 어려웠던 한계를 '전문가 특화 후 통합' 패러다임으로 해결했다. 수만 개의 샌드박스를 동시 운영하는 인프라와 효율적인 강화학습 기법을 통해 상용 폐쇄형 모델 수준의 성능을 오픈 생태계에 제시했다는 점에서 가치가 크다.
왜 중요한가
기존 코딩 모델들이 단일 학습으로 여러 도메인을 커버하기 어려웠던 한계를 '전문가 특화 후 통합' 패러다임으로 해결했다. 수만 개의 샌드박스를 동시 운영하는 인프라와 효율적인 강화학습 기법을 통해 상용 폐쇄형 모델 수준의 성능을 오픈 생태계에 제시했다는 점에서 가치가 크다.
핵심 기여
Specialize-then-Unify 패러다임 도입
SWE, WebCoding, Terminal 등 5개 전문 도메인별로 독립적인 전문가 모델을 학습시킨 후, On-Policy Distillation을 통해 단일 모델로 통합하여 도메인 간 충돌을 방지하고 성능을 극대화했다.
대규모 에이전트 인프라 KwaiEnv 개발
수만 개의 컨테이너 기반 샌드박스를 동시에 실행하고 관리할 수 있는 모듈형 인프라를 구축하여, 복잡한 소프트웨어 공학 작업에 대한 대규모 강화학습 데이터 수집을 가능하게 했다.
MCLA 및 Tree Training을 통한 학습 효율화
MoE 모델의 강화학습 불안정성을 해결하는 MCLA 기법과 트리 구조의 탐색 궤적에서 중복 계산을 제거하는 Tree Training을 제안하여 학습 속도를 최대 6.2배 가속화했다.
다양한 에이전트 스캐폴드에 대한 일반화 성공
Claude Code, OpenClaw 등 10개 이상의 외부 에이전트 프레임워크와 호환되도록 설계되어 특정 도구에 종속되지 않는 범용적인 문제 해결 능력을 확보했다.
핵심 아이디어 이해하기
기존의 대형 언어 모델은 단일 턴 코드 생성에는 뛰어나지만, 실제 개발 환경에서 발생하는 멀티 턴 상호작용과 환경 피드백을 처리하는 '에이전트' 능력은 부족하다. 특히 소프트웨어 수정(SWE)과 웹 디자인(WebCoding)은 요구되는 지식의 성격이 상충되어, 하나의 모델을 동시에 최적화하면 성능이 상쇄되는 현상이 발생한다.
이 문제를 해결하기 위해 먼저 각 분야에 특화된 5개의 전문가 모델을 개별적으로 학습시킨다. 각 전문가는 해당 도메인의 특수한 데이터와 환경 피드백을 통해 최적의 성능을 낸다. 이후 이 전문가들의 지식을 하나의 '학생' 모델에게 전수하는 과정을 거치는데, 이때 학생 모델이 직접 환경을 탐색하며 생성한 결과물에 대해 전문가가 단계별로 가이드를 주는 On-Policy Distillation 방식을 사용한다.
결과적으로 모델은 전문가의 정답만 단순히 흉내 내는 것이 아니라, 실제 문제 해결 과정에서 겪는 시행착오를 전문가의 논리 체계와 연결하며 학습하게 된다. 이를 통해 단일 모델임에도 불구하고 각 분야의 전문가 수준 성능을 동시에 유지하며, 실제 개발 현장의 복잡한 요구사항을 자율적으로 수행할 수 있는 능력을 갖추게 된다.
방법론
전체 파이프라인은 SFT, RL, OPD의 3단계로 구성된다. 첫 번째 SFT 단계에서는 Issue-PR 페어링 데이터와 AutoBuilder를 활용해 200만 개 이상의 고품질 샘플을 구축하고 5개 도메인 전문가를 생성한다. [GitHub 이슈 및 PR 데이터 입력] → [의미론적 연관성 분석 및 코드 차분 추출] → [200만 개 학습 샘플 생성] → [도메인별 특화 모델 확보].
두 번째 RL 단계에서는 Agentic Scaling 패러다임을 적용한다. 작업 복잡도, 사용자 의도 정렬, 스캐폴드 일반화라는 세 축을 기준으로 10만 개 이상의 고난도 샘플을 학습한다. MoE 모델의 안정성을 위해 MCLA(Monte-Carlo Log-probability Averaging)를 도입한다. [K개의 독립적인 로그 확률 값 입력] → [K개 값의 산술 평균 계산] → [노이즈가 억제된 평균 로그 확률 출력] → [라우팅 결정의 일관성을 높여 경사도 업데이트 안정화].
세 번째 OPD 단계에서는 전문가 모델의 지식을 통합한다. 학생 모델이 생성한 궤적에 대해 최적의 전문가를 동적으로 선택하여 단계별 로그 확률을 제공한다. [학생 모델의 탐색 궤적 입력] → [전문가 모델의 단계별 피드백 연산] → [RL 손실과 증류 손실의 결합 최적화] → [성능 저하 없는 단일 통합 모델 완성]. 또한 Tree Training을 통해 트리 구조 궤적의 중복 계산을 제거한다. [트리 구조 탐색 경로 입력] → [DFS 순서 직렬화 및 공유 접두사 중복 제거] → [단일 시퀀스 텐서 출력] → [계산량 6.2배 감소].
주요 결과
SWE-bench Verified 벤치마크에서 79.6%의 성공률을 기록하며 Claude Opus 4.6(80.8%)에 근접하는 성능을 보였다. 특히 OpenCode 스캐폴드 환경에서는 74.8%를 기록하여 동일 환경의 Claude(75.0%)와 대등한 수준임을 입증했다. 다국어 환경인 SWE-bench Multilingual에서도 75.4%를 달성하여 글로벌 대응 능력을 확인했다.
프론트엔드 미적 생성 능력을 평가하는 자체 벤치마크에서 Landing Page(59.8), Slides(57.6), Data Visualization(67.6) 점수를 기록하며 GLM-5 및 Kimi K2.5를 상회하는 결과를 얻었다. 이는 단순 코드 정확도를 넘어 시각적 완성도와 사용자 의도 파악 능력에서도 우위에 있음을 나타낸다.
효율성 측면에서 Tree Training 도입으로 학습 속도를 6.2배 가속화했으며, KRL 프레임워크의 지능형 스케줄링을 통해 샘플당 비용을 2.8배 절감했다. Terminal-Bench Hard(46.8)와 tau^2-Bench(93.9) 등 일반 에이전트 성능 지표에서도 경쟁 모델 대비 우수한 범용성을 증명했다.
기술 상세
KAT-Coder-V2는 MoE 아키텍처를 기반으로 하며, 강화학습 시 발생하는 정책 불일치와 높은 분산 문제를 해결하기 위해 MCLA를 핵심 알고리즘으로 채택했다. MCLA는 전방향 계산 시 로그 확률을 여러 번 샘플링하여 평균화함으로써 MoE 특유의 확률 노이즈를 억제한다.
학습 인프라인 KRL은 SGLang 추론 엔진과 Megatron 학습 엔진을 긴밀하게 통합하여 GPU 자원의 Context Switch 효율을 높였다. 특히 Tree Training 기법은 에이전트가 여러 하위 에이전트를 실행하거나 병렬 탐색을 수행할 때 발생하는 트리 구조의 궤적을 DFS 방식으로 직렬화하여, 공유되는 컨텍스트(Prefix)의 중복 연산을 하드웨어 수준에서 제거한다.
데이터 구축 면에서는 Issue-PR 페어링 시 임베딩 기반의 의미론적 연관성 분석을 수행하여 단순 텍스트 매칭의 한계를 극복했다. 또한 AutoBuilder를 통해 환경 설정부터 테스트 검증까지 포함된 'Quadruple(환경, 버그 코드, 지시문, 검증기)' 형태의 완전한 학습 객체를 자동 생성하는 파이프라인을 완성했다.
한계점
Claw-Eval과 같은 일부 에이전트 실행 벤치마크에서는 여전히 최상위 폐쇄형 모델과의 격차가 존재하며, 더 복잡한 환경 상호작용과 에이전트 RL의 확장이 추가로 필요하다.
실무 활용
실제 소프트웨어 개발 현장에서 자율 코딩 에이전트로 즉시 활용 가능한 수준의 성능과 인프라를 제공한다.
- GitHub 이슈 자동 분석 및 코드 수정 제안 (SWE-agent 대용)
- 자연어 입력을 통한 고품질 프론트엔드 UI/UX 디자인 및 코드 생성
- 복잡한 터미널 명령어를 포함하는 DevOps 및 시스템 설정 자동화
- 멀티 홉 웹 검색을 통한 기술 문서 요약 및 문제 해결 가이드 생성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.