optimize_anything: 텍스트 매개변수 최적화를 위한 범용 API

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

다양한 도메인에 걸친 텍스트 아티팩트를 최적화하는 단일 LLM 기반 시스템의 범용성을 보인다. 이 시스템은 단일-task, multi-task, generalization 모드를 하나의 API로 통합하고, 사이드 정보(SI)를 피드백으로 활용해 수렴 속도와 최종 성능을 크게 향상시킨다.

왜 중요한가

핵심 기여

다중 도메인에서의 단일 시스템

코드, 프롬프트, 에이전트 아키텍처, 숫자 최적화, 이미지 등 6개 도메인에서 도메인 특화 도구를 대체하고 각 도메인에서 최적화 성능을 달성한다.

하나의 API로 세 가지 최적화 모드 통합

Single-task, multi-task, generalization 모드를 하나의 optimize_anything API로 다루며, 도메인 간 전이 패턴을 공유하는 공통 프레임워크를 제공한다.

Side Information(SI) 도입

점수 외에 SI를 평가 contract로 받아 프로포저가 구체적 실패 원인과 개선 방향을 파악하도록 하여 수렴 속도와 최종 성능을 크게 향상시킨다.

Pareto 기반 다중 기준 탐색

개별 예제/메트릭별 점수를 Pareto 프런티어에 유지하고, 2-3 예제의 미니배치에서 반영해 다양한 강점을 가진 후보를 보존 및 재조합한다.

강력한 실험적 검증

ARC-AGI 아키텍처의 정확도 32.5%에서 89.5%로 상승, CUDA 커널에서 87%의 커널이 PyTorch 베이스라인과 일치 또는 상회, circle packing은 2.63598로 AlphaEvolve의 공개 결과를 능가한다.

일반화 및 다중 도메인 확장

AIME 프롬프트에서 GPT-4.1-mini의 성능을 46.67%에서 60.00%로 향상시키는 등 프롭프트 최적화에서도 일반화 모델이 효과를 보인다.

핵심 아이디어 이해하기

출발점과 기본 아이디어: 텍스트 아티팩트를 입력으로 받아 평가 함수 f(x, e) = (s(x, e), SI(x, e))를 통해 점수와 진단 정보를 얻고, 프로포저 LLM이 SI를 이용해 x를 점진적으로 개선한다. Pareto 프런티어를 유지하며 2-3개의 예제로 구성된 미니배치를 통해 각 예제에서의 강점을 조합해 후속 후보를 생성한다. 멀티-task 모드에서는 관련 문제 간 전이가 가능해 패턴이 공유되어 수렴 속도와 해결 수가 향상되며, 일반화 모드에서는 보유한 데이터로 unseen 사례에 대한 일반화 성능을 측정한다. SI는 디버깅 정보를 통해 구체적 실패 원인과 수정 방향을 제공하므로, 기존의 점수 중심 탐색보다 더 빠르고 안정적인 개선이 가능하다. 이 프레임워크는 코드/프롬프트/에이전트 아키텍처/수치 최적화/이미지까지 다양한 도메인에 동일 API로 적용되며, 제로샷(seedless) 모드도 지원한다.

방법론

아키텍처: X는 텍스트 아티팩트이며 f: X × E → R × I로 평가한다. (s, SI) 쌍을 반환한다. 2) 모드 구분: dataset이 없으면 Single-task, 있으면 Multi-task 또는 Generalization으로 해석한다. 3) Pareto 기반 선택: J개의 목표에 대해 Pareto 비지배 후보를 유지하고, 2-3 예제로 구성된 미니배치를 통해 Reflect 과정에서 x를 업데이트한다. 4) SI의 역할: SI는 텍스트, 구조화 데이터, 이미지 등 여러 형식으로 제공되어 진단 피드백을 풍부하게 만들고, Reflect 단계에서 개선 방향을 제시한다. 5) 백엔드 구성: GEPA를 기본 프론티어로 사용하되, 필요 시 다른 백엔드를 Adapter로 연결한다. 6) 모드별 실행 흐름: Seed를 주면 시작 후보를 평가하고 Pareto_frontier에서 후보를 선택해 개선한다. Seedless 모드는 자연어 목표로부터 첫 후보를 LLM이 생성하도록 한다.

주요 결과

주요 벤치마크에서 최상위 성능 달성: ARC-AGI에서 점수 32.5% → 89.5%; CUDA KernelBench에서 커널의 87%가 PyTorch 베이스라인과 일치 또는 향상, 10% 이상 속도 증가 커널 다수; Circle Packing( n=26 )에서 2.63598로 AlphaEvolve/OpenEvolve의 보고치 대비 우수; AIME 프롬프트에서 60.00%의 점수 도달; CloudCast은 40.2%의 비용 절감, Can’t Be Late은 7.8%의 절감 달성. 멀티-task 모드가 단일-task 대비 향상 효과를 보였고, SI 도입으로 수렴 속도 4–6× 증가 및 최종 점수 증가를 확인했다. Multi-task MT20은 MT10보다 더 높은 성능을 보였으며, 일반화 모드(G)에서 프로프트 외 아키텍처(ARC-AGI)에도 일반화가 가능했다.

기술 상세

전체 아키텍처: 텍스트 아티팩트를 입력으로 받고 evaluator f(x, e) → (s, SI)을 산출하며, 세 가지 모드(Single-task, Multi-task, Generalization)를 하나의 인터페이스로 다룬다. 2) 핵심 메커니즘: Pareto frontier 기반 후보 선택, 2-3 예제 미니배치를 통한 반성(reflection) 단계에서 Proposer가 개선안을 제시하고, 개선 후보를 전체 평가에 적용한다. 3) SI의 수학적 역할: SI는 각 예제/메트릭에 대한 부하 균형 정보를 제공해 특정 실패 원인을 겨냥한 Mutations를 촉발한다. 4) 백엔드 및 확장성: GEPA를 기본으로 사용하되, 필요 시 다양한 최적화 백엔드를 Adapter로 연결하여 확장 가능하다. 5) 일반화 및 전이: 멀티-task 모드는 정보가 서로 다른 문제 간의 패턴 공유를 통해 신규 문제에 대한 일반화 가능성을 높인다.

한계점

논문에 제시된 한계로, (1) 프로포저 LLM의 능력에 의존하고 저성능 모델은 후보의 질이 낮아질 수 있다. (2) 평가 비용이 도메인에 따라 높아질 수 있으며, (3) 텍스트로 표현 가능한 아티팩트에 한정되며, (4) 멀티-task 탐색은 문제 간 공유 구조가 충분하지 않으면 성능 저하를 초래할 수 있다. (5) SI 설계에는 도메인 전문성이 필요하다.

실무 활용

optimize_anything은 다양한 텍스트 아티팩트를 한 API로 최적화하는 범용 프레임워크다. 도메인별 도구 없이도 단일 인터페이스로 멀티모달 평가를 활용한 개선이 가능하다.

ARC-AGI 아키텍처 검색 및 개선
CUDA 커널 생성 및 최적화
circle packing 알고리즘의 bilevel 최적화
AIME 문제 풀이용 시스템 프롬프트 최적화
클라우드 스케줄링 정책의 비용-성능 트레이드오프 탐색

코드 공개 여부: 공개

코드 저장소 보기

키워드

LLM-based optimizationtext artifact evaluationPareto optimizationmulti-task searchcross-problem transfergeneralizationSide Informationagent architectures