Cursor의 AI 코드 리뷰 에이전트 'Bugbot' 개발기: 해결률 70% 달성 전략

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

코딩 에이전트의 확산으로 코드 리뷰 부담이 증가하자, Cursor는 이를 자동화하기 위한 AI 에이전트 'Bugbot'을 개발했습니다. 초기에는 다수결 방식의 병렬 추론을 사용했으나, 이후 AI가 실제 수정 여부를 판단하는 '해결률(Resolution Rate)' 지표를 정의하여 정량적인 성능 개선을 추진했습니다. 최종적으로 고정된 절차 대신 스스로 도구를 사용하는 에이전트 기반 아키텍처로 전환함으로써 해결률을 52%에서 70%로 끌어올렸습니다. 현재 Bugbot은 월 200만 개 이상의 PR을 검토하며 자동 수정(Autofix) 기능으로 확장 중입니다.

배경

LLM 에이전트 및 도구 호출(Tool Use) 개념, CI/CD 및 Pull Request 기반의 협업 워크플로우, 기본적인 소프트웨어 테스트 및 버그 탐지 원리

대상 독자

LLM 기반 개발 도구를 구축하거나 프로덕션 환경에서 AI 에이전트를 운영하는 엔지니어

의미 / 영향

AI가 단순히 코드를 작성하는 단계를 넘어, 스스로 오류를 검증하고 수정까지 제안하는 '자율적 품질 관리' 단계로 진입했음을 보여줍니다. 특히 정량적 지표 설정을 통한 에이전트 성능 최적화 방법론은 다른 도메인의 AI 에이전트 개발에도 중요한 벤치마크가 될 것입니다.

섹션별 상세

초기 Bugbot은 8개의 병렬 패스를 실행하고 다수결(Majority Voting) 방식을 적용하여 신뢰도를 확보했습니다. 각 패스마다 코드 디프(diff)의 순서를 무작위로 섞어 모델이 서로 다른 추론 경로를 갖도록 유도했으며, 여러 패스에서 공통적으로 지적된 문제만을 실제 버그로 간주했습니다. 이후 검증 모델(Validator)을 거쳐 오탐을 제거하고 중복을 방지하는 파이프라인을 구축했습니다.

정성적 평가의 한계를 극복하기 위해 '해결률(Resolution Rate)'이라는 새로운 핵심 지표를 도입했습니다. 이는 PR이 머지되는 시점에 AI가 최종 코드를 분석하여 Bugbot이 제안한 버그가 실제로 수정되었는지 판단하는 방식입니다. 이 지표는 실제 개발자의 피드백과 높은 일치율을 보였으며, 수십 번의 실험을 통해 성능을 점진적으로 개선하는 '언덕 오르기(Hill-climbing)'의 기준점이 되었습니다.

Bugbot의 버전별 성능 개선 추이를 보여주는 차트입니다. — Chart가로축은 실행당 평균 버그 발견 수, 세로축은 해결률을 나타냅니다. 버전 1에서 11로 진화함에 따라 버그 탐지량은 약 0.4개에서 0.7개로, 해결률은 52%에서 70% 이상으로 우상향하며 성능이 개선되었음을 시각적으로 증명합니다.

Bugbot의 대시보드 화면으로 주요 운영 지표를 보여줍니다. — Screenshot검토된 PR 수(876개), 해결된 이슈 비율(70.2%), 사용자 수(160명), 절감된 시간(1,324시간) 등 실제 프로덕션 환경에서 Bugbot이 제공하는 가치를 정량적 수치로 보여줍니다. 하단의 그래프는 날짜별 이슈 발생 추이를 나타냅니다.

고정된 시퀀스를 따르던 구조에서 도구를 호출하고 스스로 판단하는 완전한 에이전트 기반 아키텍처로 전환했습니다. 에이전트는 코드 디프를 분석하며 추가 정보가 필요할 때 동적으로 컨텍스트를 요청할 수 있어, 모든 정보를 미리 제공해야 했던 정적 방식의 한계를 해결했습니다. 이 과정에서 모델이 더 적극적으로 잠재적 문제를 조사하도록 프롬프트를 공격적으로 조정하여 탐지 성능을 높였습니다.

대규모 프로덕션 환경에 대응하기 위해 Git 통합 모듈을 Rust로 재구축하여 저장소 접근 속도와 안정성을 높였습니다. 또한 GitHub의 API 제한 내에서 원활하게 작동하도록 요청 배칭(Batching) 및 프록시 기반 인프라를 구축했습니다. 코드베이스별 특이 사항을 반영할 수 있는 사용자 정의 규칙(Bugbot Rules) 기능을 추가하여 범용성과 전문성을 동시에 확보했습니다.

실무 Takeaway

코드 리뷰 AI의 신뢰성을 높이려면 다수결 방식의 병렬 추론과 검증 모델(Validator)을 결합한 다단계 필터링 파이프라인이 필수적입니다.
단순한 발견 횟수가 아닌 '해결률(Resolution Rate)'과 같은 실제 임팩트 중심의 정량적 지표를 정의해야 데이터 기반의 지속적인 모델 개선이 가능합니다.
복잡한 코드 분석에는 고정된 워크플로우보다 에이전트가 필요한 도구와 컨텍스트를 스스로 선택하는 '에이전트 기반 설계'가 훨씬 더 높은 성능을 발휘합니다.

언급된 리소스

문서Bugbot Documentation