TL;DR
에이전트 학습 파이프라인의 핵심 병목은 실행 환경의 경계에 있다. Orchard Env는 환경 레이어를 얇은 독립 서비스로 분리해 트레이너, 어댑터, task 도메인에 구애받지 않는 재사용성과 확장성을 확보한다. 이로써 데이터 수집, SFT, RL 롤아웃, 평가 파이프라인을 서로 다른 도메인과 하니스 간에 재활용할 수 있어 연구 비용과 시간의 효율이 크게 향상된다.
왜 중요한가
에이전트 학습 파이프라인의 핵심 병목은 실행 환경의 경계에 있다. Orchard Env는 환경 레이어를 얇은 독립 서비스로 분리해 트레이너, 어댑터, task 도메인에 구애받지 않는 재사용성과 확장성을 확보한다. 이로써 데이터 수집, SFT, RL 롤아웃, 평가 파이프라인을 서로 다른 도메인과 하니스 간에 재활용할 수 있어 연구 비용과 시간의 효율이 크게 향상된다.
핵심 기여
Orchard Env: Thin, harness-agnostic environment service
Kubernetes-native로 구현된 Orchard Env는 sandbox 생애주기 관리, 명령 실행, 파일 I/O, 네트워크 정책, REST API를 제공하면서도 어떠한 agent harness나 training stack에도 묶이지 않는 독립적 서비스 경계를 형성한다. 에이전트 주입은 init container를 통해 task 이미지에 실행 에이전트를 복사하는 방식으로 수행되어 다양한 도커 이미지를 최소한의 수정으로 지원한다.
Open Training Recipes: SWE/GUI/Claw에 적용
SFT+RL 기반의 세 가지 에이전트 모델링 레시피를 통해 SWE, GUI, Claw 도메인에서 동일한 환경 레이어를 재활용한다. 데이터 수집은 다중-teacher distillation과 다중-harness 데이터 수집으로 구성되며, BAR(Balanced Adaptive Rollout)과 credit-assignment SFT를 결합해 희소 보상 문제를 효과적으로 다룬다.
Credit-Assignment SFT: unresolved traj에서의 학습 신호 확보
unresolved trajectories의 rise segments를 추출하고 retrospective value estimation으로 각 시점의 리워드 확률을 추정하여 partial-progress 신호를 SFT에 반영한다. 이로써 실패 궤적에서도 학습 효과를 얻도록 한다.
BAR:Balanced Adaptive Rollout으로 RL 샘플링 효율 개선
프로 prompts별로 positive reward 비율이 일정 구간에 오도록 샘플링 그룹을 동적으로 구성한다. 이 접근은 학습 데이터 다이나믹 구성과 RL gradient의 효율적 전달을 보장한다.
세 가지 도메인에서의 성과 및 일반화
Orchard-SWE(SFT 64.3% → SFT+RL 67.5%), Orchard-GUI(SFT+RL 평균 68.4%), Orchard-Claw(SFT+RL 59.6%)을 달성한다. harness 간 일반화와 도메인 간 재사용을 통해 오픈 소스 에이전트의 연구 재현성과 비교 대상을 크게 확장한다.
핵심 아이디어 이해하기
단계 1: 환경 레이어를 얇고 독립적으로 분리한다. 기존 시스템은 실행 환경이 트레이너/하니스와 강하게 결합되어 재현성과 확장성에 제약이 많았지만, Orchard는 Orchard Env를 통해 task 도메인을 넘나들며 데이터 수집·훈련·평가 파이프라인을 공통화한다. 기초 개념으로서 agent-injection은 task 이미지 간 차이를 런타임에 흡수해 이미지 재구성 없이도 다양한 작업을 실행 가능하게 한다. Pod IP를 이용한 직접 라우팅은 hot-path에서 Kubernetes API 서버의 오버헤드를 제거해 평균 0.28s의 실행 지연을 달성한다. 단계 2: 학습 파이프라인은 SFT와 RL의 조합으로 구성된다. SFT 단계에서 credit-assignment SFT를 도입해 unresolved trajectories에서도 유의미한 학습 신호를 얻고, BAR을 도입해 샘플링 그룹을 보정함으로써 희소 보상 문제를 완화한다. 단계 3: 세 가지 도메인에서의 실험은 데이터 다변성(다중 teacher, 다중 harness, 다중 task 소스)과 environment layer의 무결성을 통해 harness-agnostic한 일반화 성능을 달성한다. 이는 도메인 간 재사용성과 하니스 간 상호운용성의 실용적 근거를 제공한다.
방법론
[Architecure] Orchard Env은 Client SDK, Orchestrator(FastAPI), In-Pod Agent의 3층 구조로 구성된다. In-Pod 에이전트는 컨테이너에 런타임 주입되며, 실행/파일 I/O/건강 체크를 각 샌드박스 IP로 직접 전달한다. [Requirement] Thin boundary, Low-cost image compatibility, Scale at research-scale를 충족하도록 설계되었으며, 0.28s 평균 커맨드 실행 지연, 1,000 샌드박스 스트레스 테스트, spot 인스턴스 활용으로 비용 효율성을 달성한다. [Learning] Orchard-SWE는 107K trajectories를 수집하고, SFT로 74,649 resolved + 32,536 unresolved를 학습에 사용한다. unresolved는 rise segments를 추출해 credit-estimated 신호를 제공한다. BAR는 그룹 샘플링에서 동일한 N개의 샘플이 균형을 이루도록 조정한다. [RL] RL은 GRPO 기반으로, per-prompt stride를 사용한 온라인 롤아웃으로 학습하며, 64k context 윈도우에서 150 단계까지 학습한다. [Evaluation] SWE-bench Verified를 중심으로 평가하고, Harness 간 일반화도 평가한다.
관련 Figure

환경 레이어의 3단 구조(Client SDK, Orchestrator, In-Pod Agent)와 직접 Pod-IP 연결의 흐름을 시각화하여 methodology의 핵심 구현을 보강한다.
Figure 3: Orchard Env 아키텍처 다이어그램

환경 레이어의 배치 및 오버뷰를 제공해 multi-domain open training recipes의 통합성을 보여준다.
Figure 2: Orchard 프레임워크 개요/구조 개요
주요 결과
주요 결과: Orchard-SWE(3B Moe) SFT 64.3% -> SFT+RL 67.5%; Orchard-GUI 4B, SFT+RL에서 평균 68.4% 달성; Orchard-Claw SFT+RL 59.6% (pass@3), ZeroClaw에서 73.9%로 상승. 같은 empeircal setup에서 0.28s의 실행 지연과 1,000 샌드박스의 안정성, 비용 측면에서 온-프렘먼트 대비 크게 낮은 비용을 달성한다. Cross-harness 일반화: OpenHands 기반 트레이닝이 mini-swe-agent로 일반화되며, harness 간 차이는 있으나 Orchard은 여러 harness에 비교적 안정적으로 일반화한다. BAR과 credit-assignment SFT의 도입으로 불완전한 트레이젝토리에서도 학습 신호를 얻는 방법이 검증된다.
관련 Figure

SWE 벤치에서 오픈 소스 모델 간 상대적 위치를 시각화하며 Orchard의 상대적 강점을 보여준다.
Figure 1: 성능 비교 – Orchard-SWE(30B)와 Frontier MoE 등 여러 오픈/비공개 모델 간 SWE-bench Verified 성능 비교 차트

도메인별 성과 차이와 데이터 샘플링 전략의 효과를 정량화하는 근거를 제공한다.
Figure 1-7: 각 도메인(SWE/GUI/Claw)에서의 성능 및 샘플링 전략 비교 표

CLAW 도메인에서 RL 트레이닝의 수렴과 일반화 경향을 보여주는 시각적 증거를 제공한다.
Figure 8: Orchard-Claw RL 트레이닝 Curve
기술 상세
Orchard Env 아키텍처는 (i) Thin boundary의 REST API를 가진 Rapid-Orchestrator, (ii) In-Pod 에이전트로 Task 이미지에 런타임 주입, (iii) Pod-IP 직접 연결으로 핫패스 지연 최소화의 3층 구조를 취한다. 네트워크 격리(NetworkPolicy), 비동기 생애주기 관리(heartbeat), watch 기반 준비상태 추적 등을 통해 대규모 동시 샌드박스 운영의 견고성을 확보한다. 학습 측면에서 SWE 도메인에 대해 두 가지 트레이스 소스(OpenHands, mini-swe-agent)와 다중 Teacher(MiniMax-M2.5, Qwen3.5-397B)에서 Trajectory distillation을 수행하고, 제한된 unresolved traj에서 rise segment를 추출해 Credit-Assignment SFT를 수행한다. 이후 BAR 기반 RL은 N=8, Nmax=16, stride=16으로 관리되며, reward는 final patch가 gold test를 통과하면 +1, 실패 시 -1로 구성한다. Cross-harness 일반화 실험에서 harness 간 성능 편차는 존재하나 Orchard-SWE의 경우 상대적으로 안정적인 성능 유지가 관찰된다.
실무 활용
Orchard는 오픈 소스 연구자들이 대규모 agentic 학습을 재현하고 확장할 수 있도록 환경 레이어를 독립적으로 제공한다. 이를 통해 데이터 수집, SFT/ RL, 평가를 도메인과 harness에 관계없이 재사용 가능하게 만든다.
- 다중 도메인에 걸친 에이전트 학습 파이프라인 구축
- Harness-agnostic한 샌드박스 실행 인프라 연구
- SFT+RL 파이프라인에서 데이터 다양성의 효과 분석
- Cross-domain 일반화 연구를 위한 데이터/태스크 풀 구성
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.