FlowCompile: 구조화된 LLM 워크플로우를 위한 최적화 컴파일러

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

구조화된 LLM 워크플로우는 다수의 서브에이전트와 실행 그래프를 포함해 복잡한 문제를 해결한다. 런타임 라우팅은 특정 정확도–지연 트레이드오프에 집중하는 반면, FlowCompile은 배포 전 설계 공간을 전역으로 탐색해 다양한 운영 포인트를 재사용 가능한 구성 세트로 제공한다. 이로써 다양한 배포 제약과 사용자 선호를 충족하는 유연한 적용이 가능해진다.

왜 중요한가

구조화된 LLM 워크플로우는 다수의 서브에이전트와 실행 그래프를 포함해 복잡한 문제를 해결한다. 런타임 라우팅은 특정 정확도–지연 트레이드오프에 집중하는 반면, FlowCompile은 배포 전 설계 공간을 전역으로 탐색해 다양한 운영 포인트를 재사용 가능한 구성 세트로 제공한다. 이로써 다양한 배포 제약과 사용자 선호를 충족하는 유연한 적용이 가능해진다.

핵심 기여

워크플로우 컴파일링의 도입

구조화된 LLM 워크플로우에 대해 컴파일 타임 디자인 공간 탐색을 수행하고 다양한 정확도-지연 트레이드오프를 포괄하는 재사용 가능한 구성 세트를 산출한다.

구조 인식 프록시 도입

서브에이전트의 프로파일을 결합해 워크플로우 수준의 정확도와 지연을 추정하는 구조 인식 프록시를 제시한다.

일회성 컴파일로 다중 구성 세트 생성

모델 크기, 추론 예산, 워크플로우 구조를 단일 컴파일 패스에서 탐색해 다양한 운영 포인트를 얻고 재훈련 없이 배포한다.

런타임 라우팅과의 보완 관계

컴파일된 구성을 KNN 라우터 등과 결합해 쿼리별 구성 선택의 성능을 끌어올리고, 런타임 라우팅의 한계를 보완한다.

대규모 벤치마크에서의 향상

GSM8K, MATH-500, HotpotQA, LiveCodeBench에서 더 나은 정확도-지연 트레이드오프를 달성하고, 예시로 LiveCodeBench에서 최대 6.4× 속도향상을 달성한다.

핵심 아이디어 이해하기

출발점: 구조화된 LLM 워크플로우는 서브에이전트의 조합과 그래프 구조로 큰 설계 공간을 형성한다. 런타임 라우팅은 단일 포인트 최적화에 집중하기 쉽고 재사용이 제한된다. 해결 원리: FlowCompile은 서브에이전트 프로파일을 축적하고 구조 인식 프록시로 워크플로우 수준의 Acc, Lat를 추정한다. 이렇게 얻은 추정을 통해 전체 워크플로우를 실행하지 않고도 고품질 구성들을 탐색한다. 달라지는 점: 컴파일 타임에 얻은 구성 세트는 다양한 배포 제약에 대응 가능하며, 런타임 라우팅과 결합해 쿼리별 최적화를 보조한다.

방법론

Step 1: Sub-agent profiling and cost modeling — 각 서브에이전트에 대해 Ma × Ra의 구성에서 p̂a(q), ℓ̂a(q)를 측정한다. Step 2: Workflow-level compositional estimation — Gc, E를 고려해 Acc(d_c) = Cacc({p̂a(qa(c))}, Gc)와 Lat(d_c) = Clat({ℓ̂a(qa(c))}, Gc, E)를 구한다. Step 3: Trade-off set construction — 서브에이전트 차원의 Pareto 프리필링으로 공간을 축소하고, 남은 구성을 ŷ(c) = (Acc(d_c), Lat(d_c))로 평가해 Fb를 얻는다. Deployment — Fb를 런타임 후보 풀로 사용해 latency-priority, accuracy-priority, routing 보완적 사용을 수행한다. 수학적 패턴: Acc(d_c) = Cacc({p̂a(qa(c))}, Gc), Lat(d_c) = Clat({ℓ̂a(qa(c))}, Gc, E).

주요 결과

메인 벤치마크에서 FlowCompile은 더 낮은 Latency로 동등하거나 높은 Accuracy를 보여 더 나은 트레이드오프를 형성한다. Acc-priority 구성은 전체 Qwen-3-14B 워크플로우 대비 평균 3.4× 속도향상, LiveCodeBench에서 6.4× 속도향상, Latency-priority 구성은 평균 12.7× 속도향상을 달성한다. 이질적 선호도에서의 기대 효용은 벤치마크 간 평균 +7.9로 FlowCompile의 우위를 보인다. 또한 FlowCompile + KNN Routing은 GSM8K에서 +2.6, MATH-500에서 +6.3의 추가 이점을 제공한다. 교차-벤치마크 transfer는 MATH-500의 프로파일을 GSM8K에 재활용해도 프록시 품질과 기대 효용이 양호하게 유지된다. 프록시 검증은 Frontier consistency를 확인했고, Spearman ρ 및 Pairwise Agreement가 높으며 cMAE는 작다.

기술 상세

아키텍처: W=(A,G)에서 A는 서브에이전트, G는 실행 그래프, C는 구성 공간; mref, Ma, Ra, E가 포함된다. 핵심 수식으로 Acc( dc ) = Cacc({p̂a(qa(c))}, Gc), Lat( dc ) = Clat({ℓ̂a(qa(c))}, Gc, E)로 워크플로우 성능을 추정한다. 비교 연구에서 기존 ML 컴파일러(TVM 등)과 달리 워크플로우 수준에서 정확도-지연 트레이드오프를 최적화하고 재사용 가능한 구성 세트를 제공한다. 구현 세부사항으로 서브에이전트 구성별 프로파일링은 병렬화 가능하며, 나머지 워크플로우 구성은 캐시된 프로파일에 대한 수치적 합성으로 빠르게 수행된다.

실무 활용

FlowCompile은 구조화된 LLM 워크플로우를 배포 전에 최적화해 다양한 배포 제약에 대응하는 운영 포인트를 제공한다.

다양한 런타임 제약에 맞춘 배포 구성 선택
쿼리별 라우팅 후보 풀로 활용
다른 유사 태스크에 대한 프로파일 재사용으로 비용 절감

코드 공개 여부: 공개

코드 저장소 보기

키워드

structured-llm-workflows(구조화된 LLM 워크플로우)sub-agents(서브 에이전트)design-space-exploration(디자인 공간 탐색)structure-aware-proxy(구조 인식 프록시)compile-time-optimization(컴파일타임 최적화)pareto-frontier(파레토 프런티어)

코드 예제

text

print(“hello world”)
Correct, Latency: 20 ms
```printf("%s
", "hello world");```
Incorrect, Latency: 10 ms

워크플로우의 예시 테스트 코드와 주석. 두 코드 블록이 서로 다른 결과를 나타냄을 보이는 예시

python

print('hello world')

서브에이전트가 파이프라인에서 간단한 출력 예시를 생성하는 코드의 예