텍스트 아티팩트 최적화를 위한 오픈소스 API 'optimize_anything' 공개

핵심 요약

GEPA를 확장하여 코드, 에이전트 아키텍처, 스케줄링 정책 등 모든 텍스트 기반 결과물을 자동 최적화하는 오픈소스 API가 공개됐다.

배경

GEPA(프롬프트 최적화 도구)를 확장하여 코드와 에이전트 구조 등 모든 텍스트 아티팩트를 최적화할 수 있는 'optimize_anything'을 오픈소스로 공개했다. 사용자가 시작 아티팩트와 평가기(evaluator)를 제공하면 시스템이 자동으로 최적의 결과물을 탐색하는 구조이다.

커뮤니티 반응

도구의 범용성과 실제 벤치마크 수치에 대해 매우 긍정적인 반응이며, 특히 ARC-AGI 점수 향상 폭에 주목하고 있다.

실용적 조언

pip install gepa 명령어로 즉시 설치하여 자신의 프로젝트에 적용 가능하다.
평가기(evaluator) 작성 시 단순 점수뿐만 아니라 상세한 진단 정보를 반환하도록 설계하면 최적화 효율이 높아진다.

언급된 도구

gepa추천링크

프롬프트 및 아티팩트 최적화 라이브러리

Claude Code중립

최적화 대상이 된 코딩 에이전트

Optuna중립

비교 대상으로 언급된 하이퍼파라미터 최적화 프레임워크

섹션별 상세

optimize_anything은 사용자가 시작 아티팩트와 평가기(evaluator)를 제공하면 LLM이 진단 피드백을 바탕으로 최적의 결과물을 찾아내는 구조이다. 스택 트레이스, 렌더링 이미지, 프로파일러 출력 등 진단 정보를 LLM 제안자가 직접 읽고 수정에 반영하는 방식을 채택했다. 이를 통해 단순한 시행착오가 아닌 데이터에 기반한 정밀한 수정이 가능하다.

다양한 지표 사이에서 파레토 효율적(Pareto-efficient) 탐색을 수행하여 특정 강점을 희생하지 않고 전체적인 성능을 개선한다. 여러 지표의 평균을 내는 방식 대신 각 지표의 전문화된 성능을 보존하며 최적화를 진행한다. 이는 복잡한 시스템에서 상충하는 성능 목표를 동시에 달성하는 데 유리하다.

실제 적용 사례에서 ARC-AGI 에이전트의 성능을 32.5%에서 89.5%로 대폭 향상시켰으며, Claude Code의 정확도를 높이는 동시에 속도를 47% 개선했다. 클라우드 스케줄링 알고리즘의 비용을 40% 절감하고 CUDA 커널 성능을 베이스라인 이상으로 끌어올리는 성과를 거뒀다. 블랙박스 솔버 분야에서도 Optuna와 대등한 성능을 기록했다.

실무 Takeaway

텍스트 기반의 모든 아티팩트(코드, 프롬프트, 아키텍처)를 최적화할 수 있는 범용 API 공개
진단 피드백을 LLM의 수정 프로세스에 직접 통합하여 정밀한 최적화 루프 구현
ARC-AGI 벤치마크에서 89.5%라는 기록적인 성능 향상을 포함한 8개 도메인 실증 완료