이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
핵심 요약
Composer 2는 Kimi K2.5를 기반으로 코딩 특화 사전 학습과 장기 강화학습을 통해 개발되었다. 특히 실제 엔지니어의 쿼리를 반영한 내부 벤치마크인 'Cursor Bench'를 통해 모델 성능을 정교하게 평가했다.
배경
Cursor의 연구팀이 자사의 코딩 에이전트인 Composer 2를 개발하는 과정을 다룬 워크숍 영상이다.
대상 독자
AI 엔지니어, 코딩 에이전트 개발에 관심 있는 개발자.
의미 / 영향
코딩 에이전트 개발 시 범용 벤치마크보다 실제 개발 환경의 쿼리를 반영한 내부 평가 지표가 모델 성능 개선에 더 효과적임을 보여준다. 이는 향후 에이전트 기반 개발 도구의 성능 향상을 위한 표준적인 개발 파이프라인으로 자리 잡을 것이다.
챕터별 상세
00:10
Composer 2 개요
Composer 2는 에이전트 기반 코딩을 위해 개발된 강력한 코딩 모델이다. 출시 당시 Opus 4.6과 유사한 성능을 보였으며 GPT-5.4에 근접한 결과를 기록했다. 코딩 작업에서 매우 효율적이고 경제적인 성능을 제공한다.
00:45
코딩 에이전트의 진화
사용자들은 수동 코딩에서 에이전트 기반 코딩으로 전환하고 있다. Composer 1의 목표는 코딩 과정에서 상호작용을 돕는 것이었다. 최근 몇 달간 에이전트 의존도가 급격히 증가했다.
01:14
Composer의 초기 설계
초기 설계는 파일 읽기, 편집, 코드베이스 검색, 린트 수집, 터미널 명령 실행과 같은 코딩 스타일 작업을 수행하는 것이었다. 에이전트는 이러한 도구들을 순환하며 코드를 수정한다.
01:43
소프트웨어 엔지니어링으로의 전환
사용자들은 단순 코드 수정에서 전체 소프트웨어 엔지니어링으로 이동하고 있다. Composer 2는 이러한 환경에 맞춰 개발되었다. 일반적인 Cursor 개발자는 에이전트가 코드의 거의 100%를 작성하도록 기대한다.
02:25
학습 목표
Composer 2 개발을 위해 세 가지 목표를 설정했다. 에이전트가 코드에 대한 깊은 지식을 갖추고, 어려운 작업을 완료할 때까지 실행되며, 실제 작업 환경에서 잘 작동하도록 하는 것이다.
02:56
지식 습득을 위한 사전 학습
코딩에 대한 깊은 지식을 갖추기 위해 대규모 지속 사전 학습(Continued Pre-training) 단계를 포함했다. 이 단계의 목표는 일반적인 챗봇 지식이 아닌 코딩에 특화된 지식을 향상시키는 것이다.
03:23
기반 모델: Kimi K2.5
기반 모델로 Kimi K2.5를 선택했다. 이 모델은 1조 개의 파라미터, 320억 개의 활성 파라미터, 256K의 컨텍스트 길이를 가진다. 인프라 적합성과 벤치마크 점수를 고려하여 선정했다.
04:26
지속 사전 학습 단계
사전 학습은 세 단계로 진행된다. 표준 짧은 컨텍스트 사전 학습, 긴 컨텍스트 확장, 최종 SFT 단계이다. 이 과정은 모델이 실무에서 사용할 코딩 데이터에 친숙해지도록 돕는다.
05:12
강화학습의 영향
지속 사전 학습이 최종 모델 성능 향상에 필수적임을 확인했다. 세 가지 변형(small, medium, large)을 테스트한 결과, 사전 학습량이 많을수록 강화학습 후 더 높은 보상을 얻었다.
05:54
장기 강화학습
장기 강화학습은 어려운 작업을 완료하는 에이전트를 만드는 데 중점을 둔다. 실제 사용자 쿼리를 시뮬레이션하여 모델의 행동을 조정한다. 이를 통해 에이전트의 사용자 경험을 극대화한다.
06:30
강화학습 데이터
실제 코딩 문제들을 수집하여 강화학습에 사용한다. 기능 구현, 디버깅, 리팩터링 등 다양한 작업이 포함된다. 작업의 난이도가 다양하여 모델의 성능을 정교하게 테스트할 수 있다.
07:22
Autoinstall 과정
Autoinstall은 강화학습 전 환경을 구축하는 과정이다. Composer 1.5가 저장소를 탐색하고 설치 명령을 생성한 뒤 검증 테스트를 작성한다. 이 과정을 통해 강화학습을 위한 안정적인 환경이 준비된다.
08:35
강화학습 프로세스
강화학습은 롤아웃 방식으로 진행된다. 에이전트는 실제 Cursor 환경과 동일한 작업을 수행한다. 256K 토큰과 수백 개의 도구 호출을 포함하는 복잡한 롤아웃을 처리한다.
09:39
행동 조정을 위한 보상
비선형 길이 페널티를 적용하여 모델의 속도와 깊이 사이의 균형을 맞춘다. 쉬운 문제는 효율적으로 해결하고, 어려운 문제는 더 많은 시간을 투자하도록 유도한다. 이를 통해 모델의 탐색 행동을 정교하게 제어한다.
10:49
Self-Summarization
Self-summarization은 모델이 컨텍스트 제한을 넘어 긴 작업을 수행할 수 있게 한다. 작업이 길어지면 모델이 지금까지의 내용을 요약하고, 이 요약을 다음 단계의 입력으로 사용한다. 이를 통해 하나의 최종 보상을 전체 롤아웃에 공유한다.
11:57
평가 결과
강화학습을 오래 수행할수록 평가 지표가 지속적으로 향상되었다. Best-of-16 성능도 함께 증가하여 모델이 특정 솔루션에 치우치지 않음을 확인했다.
12:51
Cursor Bench
실제 소프트웨어 엔지니어링 문제를 반영한 내부 벤치마크인 Cursor Bench를 구축했다. 실제 엔지니어의 쿼리를 사용하여 모델의 실질적인 코딩 능력을 평가한다.
13:22
Cursor Bench의 특징
Cursor Bench는 오염되지 않았으며 다양한 사용 사례를 다룬다. 단순히 테스트 통과 여부뿐만 아니라 실제 코딩 작업의 복잡성을 반영한다. SWE-bench보다 모델 간 성능 차이를 더 명확하게 구분한다.
15:13
Cursor Bench 예시
실제 Cursor Bench의 문제 예시를 통해 모델이 어떻게 복잡한 쿼리를 처리하는지 보여준다. 대소문자 구분, 복잡한 문장 구조, 다중 파일 참조 등 실제 개발 환경의 문제를 해결해야 한다.
17:21
미래 시스템
Composer 2.5 모델이 곧 출시될 예정이다. 현재 SpaceX 클러스터를 사용하여 더 큰 규모로 학습 중이다. 사전 학습과 강화학습을 지속적으로 개선하여 성능을 향상시키고 있다.
실무 Takeaway
- 코딩 에이전트의 성능 향상을 위해 코딩 특화 데이터로 사전 학습을 수행하고, 실제 엔지니어링 쿼리를 시뮬레이션하는 강화학습이 필요하다.
- 장기적인 작업을 수행하기 위해 'Self-summarization' 기법을 사용하여 컨텍스트 제한을 극복하고 보상을 공유할 수 있다.
- 실제 소프트웨어 엔지니어링 문제를 반영한 내부 벤치마크(Cursor Bench)를 구축하여 모델의 실질적인 코딩 능력을 정교하게 평가해야 한다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 05. 22.수집 2026. 05. 22.출처 타입 YOUTUBE
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.