핵심 요약
코딩 에이전트(coding agents)에 특화된 오픈 가중치 언어 모델인 Qwen3-Coder-Next를 소개합니다. Qwen3-Coder-Next는 총 800억 개(80B)의 파라미터를 보유하고 있으나, 추론 시에는 30억 개(3B)의 파라미터만을 활성화하여 효율적인 추론과 강력한 코딩 능력을 동시에 제공합니다. 본 연구에서는 강력한 학습 레시피가 작은 파라미터 사용량(parameter footprints)을 가진 모델의 성능 한계를 어디까지 끌어올릴 수 있는지 탐구합니다. 이를 위해 실행 가능한 환경(executable environments)과 결합된 대규모 검증 가능 코딩 작업(verifiable coding tasks)의 합성을 통해 에이전트 중심 학습(agentic training)을 수행하였으며, 중간 학습(mid-training) 및 강화학습(reinforcement learning) 단계에서 환경 피드백으로부터 직접 학습하도록 설계했습니다. SWE-Bench 및 Terminal-Bench를 포함한 에이전트 중심 벤치마크에서 Qwen3-Coder-Next는 활성 파라미터 수 대비 경쟁력 있는 성능을 기록했습니다. 연구 및 실제 코딩 에이전트 개발을 지원하기 위해 베이스(base) 및 인스트럭션 튜닝(instruction-tuned) 버전을 모두 오픈 가중치로 공개합니다.
핵심 기여
효율적인 MoE 아키텍처 설계
80B 전체 파라미터 중 3B만 활성화하는 전문가 혼합(Mixture-of-Experts) 구조를 채택하여 추론 비용을 획기적으로 낮추면서도 대규모 모델의 성능을 유지함.
에이전트 중심 학습 방법론 도입
실행 가능한 샌드박스 환경과 연동된 검증 가능한 코딩 태스크를 대규모로 합성하여 모델이 실제 문제 해결 과정을 학습하도록 유도함.
환경 피드백 기반 강화학습
중간 학습 및 강화학습 단계에서 코드 실행 결과(피드백)를 모델 최적화에 직접 반영하여 코드 정확도와 실행 가능성을 극대화함.
고성능 오픈 가중치 모델 배포
SWE-Bench 등 주요 벤치마크에서 우수한 성적을 거둔 베이스 및 인스트럭션 모델을 공개하여 코딩 에이전트 연구 생태계에 기여함.
방법론
80B 파라미터 규모의 전문가 혼합(MoE) 구조를 기반으로 하며, 추론 시에는 3B 파라미터만 활성화하여 연산 효율을 극대화했습니다. 학습 과정에서는 실행 가능한 환경에서 코드를 직접 구동하고 그 결과값을 보상 신호로 사용하는 에이전트 중심 학습(Agentic Training)을 적용했으며, 이를 중간 학습(Mid-training)과 강화학습(RL) 단계에 통합하여 모델의 실질적인 문제 해결 능력을 강화했습니다.
주요 결과
SWE-Bench 및 Terminal-Bench와 같은 에이전트 성능 측정 벤치마크에서 활성 파라미터가 3B에 불과함에도 불구하고 훨씬 큰 규모의 밀집(Dense) 모델들과 대등하거나 능가하는 성능을 기록했습니다. 특히 실행 가능한 환경에서의 검증을 거친 학습 데이터 덕분에 코드 생성의 정확도와 에이전트로서의 자율적인 도구 사용 능력이 크게 향상되었습니다.
시사점
적은 활성 파라미터로도 고성능 코딩 에이전트를 구축할 수 있음을 증명하여, 저비용 인프라에서도 강력한 자율 코딩 도구를 구현할 수 있는 가능성을 제시했습니다. 실행 환경 피드백을 학습 루프에 직접 포함시키는 방법론은 향후 특수 목적형 에이전트 모델 학습의 핵심적인 표준이 될 것으로 전망됩니다.
키워드
섹션별 상세
효율적인 MoE 아키텍처 설계
에이전트 중심 학습 방법론 도입
환경 피드백 기반 강화학습
고성능 오픈 가중치 모델 배포
AI 요약 · 북마크 · 개인 피드 설정 — 무료