핵심 요약
대형 언어 모델(LLM)의 터미널(Terminal) 활용 능력이 최근 급격히 발전했음에도 불구하고, 최첨단 터미널 에이전트(Terminal Agent)의 이면에 있는 훈련 데이터 전략은 여전히 베일에 싸여 있습니다. 본 연구는 터미널 에이전트를 위한 데이터 엔지니어링(Data Engineering) 관행을 체계적으로 연구하여 이러한 격차를 해소하며, 두 가지 주요 기여를 제시합니다. 첫째, 시드(Seed) 기반 및 기술(Skill) 기반 작업 구성을 지원하는 경량 합성 작업 생성 파이프라인인 Terminal-Task-Gen을 제안합니다. 둘째, 필터링(Filtering), 커리큘럼 학습(Curriculum Learning), 긴 문맥 학습(Long Context Training) 및 스케일링 법칙(Scaling Behavior)을 포함한 데이터 및 훈련 전략에 대한 포괄적인 분석을 제공합니다. 이 파이프라인을 통해 터미널 작업을 위한 대규모 오픈 소스 데이터셋인 Terminal-Corpus를 구축했습니다. 이 데이터셋을 사용하여 Qwen3(8B, 14B, 32B)에서 초기화된 Nemotron-Terminal 모델군을 훈련했으며, Terminal-Bench 2.0에서 상당한 성능 향상을 달성했습니다. 구체적으로 Nemotron-Terminal-8B는 2.5%에서 13.0%로, 14B는 4.0%에서 20.2%로, 32B는 3.4%에서 27.4%로 성능이 개선되어 훨씬 더 큰 모델의 성능과 대등한 수준에 도달했습니다. 본 연구는 도메인 연구를 가속화하기 위해 모델 체크포인트와 대부분의 합성 데이터셋을 오픈 소스로 공개합니다.
핵심 기여
터미널 작업 생성 파이프라인 Terminal-Task-Gen 개발
시드 데이터와 기술 기반 구성을 결합하여 터미널 에이전트 훈련에 필요한 고품질 합성 데이터를 생성하는 경량화된 파이프라인을 구축함.
대규모 오픈 소스 데이터셋 Terminal-Corpus 구축
제안된 파이프라인을 통해 생성된 대규모 터미널 작업 데이터셋을 공개하여 관련 분야의 연구 데이터 부족 문제를 해결함.
터미널 특화 모델 Nemotron-Terminal 성능 입증
Qwen3 기반 모델들을 훈련하여 Terminal-Bench 2.0에서 기존 대비 최대 8배 이상의 성능 향상을 기록하고 대형 모델 수준의 효율성을 달성함.
최적의 터미널 에이전트 훈련 전략 규명
필터링, 커리큘럼 학습, 롱 컨텍스트 훈련 등 터미널 능력 확장에 필수적인 데이터 엔지니어링 및 학습 방법론을 체계적으로 분석함.
방법론
Terminal-Task-Gen 파이프라인을 통해 시드 데이터와 특정 기술 세트를 조합하여 합성 데이터를 생성하며, 훈련 과정에서 난이도 조절을 위한 커리큘럼 학습과 긴 터미널 세션을 처리하기 위한 롱 컨텍스트 학습을 적용한다.
주요 결과
Terminal-Bench 2.0 벤치마크에서 Nemotron-Terminal-8B는 13.0%(기존 2.5%), 14B는 20.2%(기존 4.0%), 32B는 27.4%(기존 3.4%)를 기록하며 초기 모델 대비 비약적인 성능 향상을 보였다.
시사점
터미널 환경에서의 복잡한 명령 실행 능력을 갖춘 에이전트 개발을 위한 구체적인 데이터 구축 가이드를 제공하며, 오픈 소스 모델과 데이터셋을 통해 개발자들이 고성능 터미널 에이전트를 직접 구축하고 실험할 수 있는 기반을 마련했다.
키워드
섹션별 상세
터미널 작업 생성 파이프라인 Terminal-Task-Gen 개발
대규모 오픈 소스 데이터셋 Terminal-Corpus 구축
터미널 특화 모델 Nemotron-Terminal 성능 입증
최적의 터미널 에이전트 훈련 전략 규명
AI 요약 · 북마크 · 개인 피드 설정 — 무료