핵심 요약
소프트웨어 공학(Software Engineering, SWE) 에이전트가 급격히 발전하고 있으며, 최근의 성과는 주로 강화학습(Reinforcement Learning, RL)에 의해 주도되고 있습니다. 그러나 강화학습 훈련은 재현 가능한 실행 환경과 신뢰할 수 있는 테스트 스위트(test suite)를 갖춘 대규모 작업 컬렉션의 부족으로 인해 제약을 받고 있습니다. 점점 더 많은 벤치마크가 등장하고 있음에도 불구하고, 훈련에 적합한 데이터셋은 규모와 다양성 측면에서 여전히 제한적이거나 종종 자원이 풍부한 특정 언어 생태계만을 대상으로 합니다. 본 논문에서는 실행 가능한 실제 SWE 작업을 수집하고 대규모 강화학습 훈련 환경을 구축하기 위한 언어 불가지론적(language-agnostic) 자동화 파이프라인인 SWE-rebench V2를 소개합니다. 이 파이프라인은 대화형 설정 에이전트(interactive setup agent)를 통해 저장소별 설치 및 테스트 절차를 합성하고, 인간이 검증한 SWE-bench 주석과 대조하여 검증된 대규모 언어 모델(LLM) 판사(judge) 앙상블을 사용하여 부적절한 사례를 필터링합니다. 이 파이프라인을 사용하여 20개 언어와 3,600개 이상의 저장소에 걸친 32,000개 이상의 작업으로 구성된 데이터셋을 구축했으며, 재현 가능한 실행을 위해 사전 빌드된 이미지를 제공합니다. 훈련 데이터를 더욱 확장하기 위해 설치 지침, 실패-통과 테스트(fail-to-pass tests) 및 풍부한 메타데이터를 포함한 120,000개 이상의 작업을 추가로 공개하며, 여기서 문제 설명은 원본 풀 리퀘스트(pull request) 설명을 기반으로 생성되었습니다. 7개의 인기 모델을 대상으로 5개 프로그래밍 언어의 작업 하위 집합을 다루는 진단 연구를 통해 수집된 사례를 검증하고, 과도하게 제한적인 테스트나 불충분한 설명과 같은 일반적인 혼란 변수를 표시하는 인스턴스 수준의 메타데이터를 제공합니다. 우리는 다양한 언어와 저장소에서 SWE 에이전트의 대규모 훈련을 가능하게 하기 위해 데이터셋, 수집 및 실행 코드, 관련 결과물을 공개합니다.
핵심 기여
언어 불가지론적 자동화 수집 파이프라인
특정 프로그래밍 언어에 종속되지 않고 실제 소프트웨어 공학 작업을 자동으로 수집하고 실행 환경을 구축하는 SWE-rebench V2 파이프라인을 개발했다.
대규모 실행 가능 데이터셋 구축
20개 언어, 3,600개 이상의 저장소에서 추출한 32,000개 이상의 실행 가능한 작업과 사전 빌드된 도커 이미지를 제공한다.
LLM 판사 기반의 품질 관리 시스템
대화형 설정 에이전트와 LLM 판사 앙상블을 활용하여 설치 및 테스트 절차를 자동 생성하고 부적절한 데이터를 필터링하여 데이터 신뢰성을 확보했다.
12만 개의 확장 메타데이터 작업 공개
실행 가능 데이터셋 외에도 풀 리퀘스트 기반의 문제 설명과 테스트 정보를 포함한 120,000개 이상의 추가 작업을 제공하여 훈련 규모를 극대화했다.
방법론
SWE-rebench V2는 대화형 설정 에이전트를 사용하여 각 저장소에 맞는 설치 및 테스트 스크립트를 자동으로 생성하는 방식을 채택했다. 수집된 데이터의 품질을 보장하기 위해 인간의 검증 데이터로 튜닝된 LLM 판사 앙상블을 통해 유효하지 않은 작업을 필터링하며, 모든 작업은 재현성을 위해 컨테이너화된 이미지 형태로 관리된다.
주요 결과
20개 프로그래밍 언어와 3,600개 이상의 저장소에서 32,000개 이상의 실행 가능한 작업을 확보했다. 추가로 120,000개의 메타데이터 기반 작업을 포함하여 총 15만 개 이상의 대규모 데이터셋을 구축했으며, 7개 주요 모델을 활용한 진단 연구를 통해 데이터셋의 유효성과 잠재적 한계점을 분석했다.
시사점
파이썬 등 특정 언어에 편중되었던 기존 SWE 벤치마크의 한계를 극복하여 다국어 환경에서의 SWE 에이전트 개발을 가속화할 것이다. 특히 대규모 강화학습용 데이터를 제공함으로써 에이전트의 복잡한 코딩 문제 해결 능력을 비약적으로 향상시킬 수 있는 기반을 마련했다.
키워드
섹션별 상세
언어 불가지론적 자동화 수집 파이프라인
대규모 실행 가능 데이터셋 구축
LLM 판사 기반의 품질 관리 시스템
12만 개의 확장 메타데이터 작업 공개
AI 요약 · 북마크 · 개인 피드 설정 — 무료