CursorAI/ML조회 7회

Cursor의 코딩 에이전트 'Composer 2' 개발기: 모델 선택부터 강화학습까지

Cursor 연구팀이 코딩 에이전트 Composer 2를 개발하며 적용한 모델 선정, 사전 학습, 강화학습 및 자체 평가 벤치마크 구축 과정을 상세히 설명한다.

챕터별 상세

00:10

Composer 2 개요

Composer 2는 에이전트 기반 코딩을 위해 개발된 강력한 코딩 모델이다. 출시 당시 Opus 4.6과 유사한 성능을 보였으며 GPT-5.4에 근접한 결과를 기록했다. 코딩 작업에서 매우 효율적이고 경제적인 성능을 제공한다.

00:45

코딩 에이전트의 진화

사용자들은 수동 코딩에서 에이전트 기반 코딩으로 전환하고 있다. Composer 1의 목표는 코딩 과정에서 상호작용을 돕는 것이었다. 최근 몇 달간 에이전트 의존도가 급격히 증가했다.

01:14

Composer의 초기 설계

초기 설계는 파일 읽기, 편집, 코드베이스 검색, 린트 수집, 터미널 명령 실행과 같은 코딩 스타일 작업을 수행하는 것이었다. 에이전트는 이러한 도구들을 순환하며 코드를 수정한다.

01:43

소프트웨어 엔지니어링으로의 전환

사용자들은 단순 코드 수정에서 전체 소프트웨어 엔지니어링으로 이동하고 있다. Composer 2는 이러한 환경에 맞춰 개발되었다. 일반적인 Cursor 개발자는 에이전트가 코드의 거의 100%를 작성하도록 기대한다.

02:25

학습 목표

Composer 2 개발을 위해 세 가지 목표를 설정했다. 에이전트가 코드에 대한 깊은 지식을 갖추고, 어려운 작업을 완료할 때까지 실행되며, 실제 작업 환경에서 잘 작동하도록 하는 것이다.

02:56

지식 습득을 위한 사전 학습

코딩에 대한 깊은 지식을 갖추기 위해 대규모 지속 사전 학습(Continued Pre-training) 단계를 포함했다. 이 단계의 목표는 일반적인 챗봇 지식이 아닌 코딩에 특화된 지식을 향상시키는 것이다.

03:23

기반 모델: Kimi K2.5

기반 모델로 Kimi K2.5를 선택했다. 이 모델은 1조 개의 파라미터, 320억 개의 활성 파라미터, 256K의 컨텍스트 길이를 가진다. 인프라 적합성과 벤치마크 점수를 고려하여 선정했다.

04:26

지속 사전 학습 단계

사전 학습은 세 단계로 진행된다. 표준 짧은 컨텍스트 사전 학습, 긴 컨텍스트 확장, 최종 SFT 단계이다. 이 과정은 모델이 실무에서 사용할 코딩 데이터에 친숙해지도록 돕는다.

05:12

강화학습의 영향

지속 사전 학습이 최종 모델 성능 향상에 필수적임을 확인했다. 세 가지 변형(small, medium, large)을 테스트한 결과, 사전 학습량이 많을수록 강화학습 후 더 높은 보상을 얻었다.

05:54

장기 강화학습

장기 강화학습은 어려운 작업을 완료하는 에이전트를 만드는 데 중점을 둔다. 실제 사용자 쿼리를 시뮬레이션하여 모델의 행동을 조정한다. 이를 통해 에이전트의 사용자 경험을 극대화한다.

06:30

강화학습 데이터

실제 코딩 문제들을 수집하여 강화학습에 사용한다. 기능 구현, 디버깅, 리팩터링 등 다양한 작업이 포함된다. 작업의 난이도가 다양하여 모델의 성능을 정교하게 테스트할 수 있다.

07:22

Autoinstall 과정

Autoinstall은 강화학습 전 환경을 구축하는 과정이다. Composer 1.5가 저장소를 탐색하고 설치 명령을 생성한 뒤 검증 테스트를 작성한다. 이 과정을 통해 강화학습을 위한 안정적인 환경이 준비된다.

08:35

강화학습 프로세스

강화학습은 롤아웃 방식으로 진행된다. 에이전트는 실제 Cursor 환경과 동일한 작업을 수행한다. 256K 토큰과 수백 개의 도구 호출을 포함하는 복잡한 롤아웃을 처리한다.

09:39

행동 조정을 위한 보상

비선형 길이 페널티를 적용하여 모델의 속도와 깊이 사이의 균형을 맞춘다. 쉬운 문제는 효율적으로 해결하고, 어려운 문제는 더 많은 시간을 투자하도록 유도한다. 이를 통해 모델의 탐색 행동을 정교하게 제어한다.

10:49

Self-Summarization

Self-summarization은 모델이 컨텍스트 제한을 넘어 긴 작업을 수행할 수 있게 한다. 작업이 길어지면 모델이 지금까지의 내용을 요약하고, 이 요약을 다음 단계의 입력으로 사용한다. 이를 통해 하나의 최종 보상을 전체 롤아웃에 공유한다.

11:57

평가 결과

강화학습을 오래 수행할수록 평가 지표가 지속적으로 향상되었다. Best-of-16 성능도 함께 증가하여 모델이 특정 솔루션에 치우치지 않음을 확인했다.

12:51

Cursor Bench

실제 소프트웨어 엔지니어링 문제를 반영한 내부 벤치마크인 Cursor Bench를 구축했다. 실제 엔지니어의 쿼리를 사용하여 모델의 실질적인 코딩 능력을 평가한다.

13:22

Cursor Bench의 특징

Cursor Bench는 오염되지 않았으며 다양한 사용 사례를 다룬다. 단순히 테스트 통과 여부뿐만 아니라 실제 코딩 작업의 복잡성을 반영한다. SWE-bench보다 모델 간 성능 차이를 더 명확하게 구분한다.

15:13

Cursor Bench 예시

실제 Cursor Bench의 문제 예시를 통해 모델이 어떻게 복잡한 쿼리를 처리하는지 보여준다. 대소문자 구분, 복잡한 문장 구조, 다중 파일 참조 등 실제 개발 환경의 문제를 해결해야 한다.

17:21

미래 시스템

Composer 2.5 모델이 곧 출시될 예정이다. 현재 SpaceX 클러스터를 사용하여 더 큰 규모로 학습 중이다. 사전 학습과 강화학습을 지속적으로 개선하여 성능을 향상시키고 있다.

언급된 리소스

문서Models

문서Cursor docs

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 05. 22.수집 2026. 05. 22.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.