핵심 요약
기존의 기계 학습 엔지니어링(MLE) 작업은 모델 학습과 평가에 수백 초가 소요되어 강화학습 적용이 사실상 불가능했다. 이 논문은 실제 문제의 복잡성은 유지하면서 데이터 규모만 마이크로 단위로 줄인 합성 환경을 생성하여, MLE 에이전트의 성능을 비약적으로 높이는 온폴리시(On-policy) 강화학습을 가능하게 한다.
왜 중요한가
기존의 기계 학습 엔지니어링(MLE) 작업은 모델 학습과 평가에 수백 초가 소요되어 강화학습 적용이 사실상 불가능했다. 이 논문은 실제 문제의 복잡성은 유지하면서 데이터 규모만 마이크로 단위로 줄인 합성 환경을 생성하여, MLE 에이전트의 성능을 비약적으로 높이는 온폴리시(On-policy) 강화학습을 가능하게 한다.
핵심 기여
확장 가능한 합성 MLE 샌드박스 생성 프레임워크
시드 작업에서 구조적 특징을 추출하여 데이터셋 규모를 50~200개 샘플로 제한한 다양하고 검증 가능한 합성 MLE 환경을 자동으로 생성한다.
MLE 도메인을 위한 궤적 단위 강화학습 적용
실행 시간을 13배 이상 단축하여 MLE 도메인에서 최초로 대규모 온폴리시 궤적 단위 강화학습을 수행하고, 단계별 이정표 기반 보상을 통해 학습 안정성을 확보했다.
프레임워크에 구애받지 않는 일반화 성능 입증
학습된 모델이 MLE-bench-lite에서 SFT 대비 최대 66.9% 개선된 성과를 보였으며, 학습 시 사용하지 않은 에이전트 구조에서도 높은 성능을 유지함을 확인했다.
핵심 아이디어 이해하기
기존의 LLM 에이전트 학습은 주로 소프트웨어 엔지니어링(SWE)에 집중되었으며, 이는 단위 테스트가 수 초 내에 끝나기 때문에 반복적인 강화학습이 가능했다. 반면 기계 학습 엔지니어링(MLE)은 코드 한 번 실행에 전체 데이터 전처리, 모델 학습, 평가 과정이 포함되어 수백 초가 소요된다. 이러한 피드백 지연은 모델이 시행착오를 통해 배우는 강화학습의 Gradient Descent 과정을 극도로 느리게 만든다.
SandMLE는 MLE 작업의 실행 시간이 알고리즘의 복잡성보다는 데이터셋의 크기에 의해 결정된다는 점에 착안했다. 따라서 실제 문제의 수학적 규칙과 구조적 복잡성(DNA)은 그대로 유지하되, 학습 및 테스트 데이터만 50~200개 수준의 마이크로 스케일로 줄인 합성 환경을 구축한다. 이는 마치 거대한 공장을 짓기 전에 정교한 축소 모형으로 시뮬레이션을 돌리는 것과 같다.
이렇게 단축된 환경 피드백(15초 미만)을 통해 모델은 수천 번의 온폴리시 업데이트를 거치며 복잡한 문제 해결 전략을 익힌다. 결과적으로 작은 데이터셋에서 학습했음에도 불구하고, 모델은 '데이터를 어떻게 다루고 모델을 어떻게 개선해야 하는가'라는 핵심적인 MLE 추론 능력을 내재화하여 실제 대규모 문제에서도 높은 성능을 발휘하게 된다.
방법론
SandMLE는 네 가지 전문 에이전트가 협력하는 파이프라인을 통해 합성 환경을 생성한다. Data Strategist가 시드 작업에서 구조적 DNA를 추출하고 도메인을 변형하며, MLE Developer가 이를 실행 가능한 Python 코드로 구현하여 마이크로 데이터셋을 생성한다. MLOps Engineer는 결정론적 평가 샌드박스를 구축하고, Technical Writer가 최종 작업 명세서를 작성한다.
학습에는 GRPO(Group Relative Policy Optimization) 알고리즘을 사용한다. 입력 쿼리 x에 대해 이전 정책 π_old가 N개의 후보 출력 {y1, ..., yN}을 샘플링하고, 각 출력에 대해 환경으로부터 검증 가능한 보상 r_i를 받는다. Advantage A_i = (r_i - μ_r) / σ_r를 계산하여 그룹 내 상대적 품질을 평가하고, 기준 모델 π_ref와의 KL Divergence를 페널티로 부여하여 정책 붕괴를 방지한다.
보상 설계는 희소성 문제를 해결하기 위해 단계별 이정표(Milestone) 방식을 채택한다. 전체 보상 r = w_format * r_format + w_execute * I_execute + Σ w_si * I_si로 구성된다. 여기서 I_si는 모델이 특정 성능 임계치(Median, Bronze, Silver, Gold 등)를 넘었는지를 판단하는 불리언 지표이며, 이를 통해 에이전트가 단순 코드 실행을 넘어 점진적으로 성능을 개선하도록 유도한다.
주요 결과
Qwen3-8B, 14B, 30B-A3B 모델을 대상으로 실험한 결과, SandMLE는 모든 규모에서 SFT 베이스라인 대비 유의미한 성능 향상을 기록했다. 특히 8B 모델은 Any Medal 달성률에서 13.6%에서 22.7%로 개선되어 DeepSeek-V3.1이나 Gemini-2.5-flash와 대등한 수준에 도달했다. 30B 모델은 13.6%에서 27.3%로 성능이 두 배 이상 향상되었다.
실행 효율성 측면에서 SandMLE는 기존 MLE-bench 시드 작업의 평균 실행 시간인 196.17초를 14.31초로 약 13.7배 단축했다. 이는 제한된 컴퓨팅 자원 내에서 수천 번의 온폴리시 롤아웃을 가능하게 하여 학습 효율을 극대화했다.
일반화 분석에서는 학습 시 사용한 ReAct 프레임워크 외에도 AIDE, AIRA 등 다른 에이전트 구조에서도 성능 향상이 유지됨을 확인했다. MLE-Dojo 벤치마크에서 Qwen3-30B-SandMLE는 HumanRank 점수 38.56을 기록하며 베이스라인(29.12)을 크게 상회했다.
기술 상세
SandMLE는 MLE 작업을 유한 상태 순차 결정 프로세스로 공식화한다. 각 단계 t에서 정책 π_θ는 현재까지의 궤적 h_t를 관찰하고 행동 a_t(코드 생성 등)를 수행하며, 환경 E로부터 관찰 o_t를 받는다. 이 과정은 종료 조건이 충족될 때까지 반복된다.
합성 환경의 논리적 일관성을 보장하기 위해 단조 증가 제약 조건(Monotonic Constraint)을 적용한 Sanity Verification 과정을 거친다. 생성된 이정표 임계값들이 s1 > s2 > ... > sk와 같은 엄격한 순서를 만족해야만 학습 커리큘럼에 포함시킨다. 또한, 역전파 시 코드 실행 시간이 제한을 초과한 궤적은 마스킹 처리하여 잘못된 최적화를 방지한다.
한계점
테스트 타임 스케일링 시 interaction turn이 늘어남에 따라 모델의 유효 컨텍스트 길이를 초과하여 성능이 저하되는 현상이 관찰되었다. 동적 트런케이션 전략을 사용함에도 불구하고 긴 궤적에서의 기억 상실 문제는 여전한 한계로 지적된다.
실무 활용
MLE 에이전트의 추론 능력을 저비용으로 고도화하려는 기업이나 연구소에서 즉시 활용 가능하다. 대규모 데이터셋 없이도 합성 환경만으로 모델의 문제 해결 능력을 학습시킬 수 있다.
- 제한된 GPU 자원 환경에서의 효율적인 MLE 에이전트 강화학습
- 다양한 도메인(금융, 의료 등)의 가상 ML 문제를 활용한 에이전트 벤치마킹
- 특정 ML 워크플로우(데이터 전처리, 하이퍼파라미터 최적화)에 특화된 에이전트 튜닝
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.