Together Evaluations: OpenAI, Anthropic, Google 모델 지원 및 벤치마킹 기능 확장

핵심 요약

Together AI는 자사의 LLM 평가 프레임워크인 'Together Evaluations'에 OpenAI, Anthropic, Google의 최신 모델 지원을 추가했다. 이를 통해 사용자는 오픈소스, 파인튜닝 모델, 폐쇄형 모델을 동일한 기준에서 비교 분석하여 품질과 비용 사이의 최적점을 찾을 수 있다. 특히 DPO(Direct Preference Optimization)를 활용해 폐쇄형 모델급 성능을 내는 오픈소스 평가 모델 구축 사례와 자동 프롬프트 최적화 기법을 함께 제시했다. 이번 업데이트는 데이터 기반의 모델 선택과 워크플로 최적화를 지원하는 데 중점을 둔다.

배경

LLM API 사용 경험, DPO(Direct Preference Optimization) 기본 개념, Jinja2 템플릿 문법

대상 독자

프로덕션 환경에서 LLM을 선택하고 성능을 최적화해야 하는 AI 엔지니어 및 데이터 과학자

의미 / 영향

모델 선택지가 넓어짐에 따라 객관적인 벤치마킹의 중요성이 커지고 있으며, 오픈소스 모델이 특정 작업에서 폐쇄형 모델을 대체할 수 있는 실질적인 경로를 제시하여 운영 비용 절감에 기여한다.

섹션별 상세

Together Evaluations API는 이제 OpenAI, Anthropic, Google의 주요 모델을 평가 대상 또는 평가자(Judge)로 사용할 수 있도록 지원한다. 사용자는 OpenAI Chat Completions와 호환되는 모든 외부 API URL을 연결하여 자체 호스팅 중인 모델까지 통합 벤치마킹 환경에 포함할 수 있다. 이는 폐쇄형 모델과 오픈소스 모델 간의 성능 및 비용 효율성을 객관적으로 비교하는 데 유용하다.

Together AI의 파인튜닝 서비스를 통해 학습된 모델을 Evaluations API 내에서 직접 평가할 수 있는 워크플로가 통합되었다. LoRA 서버리스 추론 또는 전용 엔드포인트(Dedicated Endpoints)로 배포된 모델 ID를 사용하여 별도의 복잡한 설정 없이 즉각적인 성능 측정이 가능하다. 이를 통해 파인튜닝 결과물이 실제 목표 성능에 도달했는지 실시간으로 추적할 수 있다.

DPO(Direct Preference Optimization) 기법을 적용하여 대형 폐쇄형 모델을 능가하는 오픈소스 평가 모델 구축 방법론을 공개했다. Qwen 기반의 오픈소스 모델을 RewardBench 데이터로 학습시킨 결과, 폐쇄형 모델 대비 10배 낮은 비용과 15배 빠른 속도로 62.63%의 정확도를 달성하며 효율적인 평가 대안을 입증했다. 이는 고비용 API 의존도를 낮추면서도 높은 평가 신뢰도를 유지할 수 있음을 보여준다.

GEPA(Generative Evolutionary Prompt Adapter) 프레임워크를 활용한 자동 프롬프트 최적화 프로세스를 제시했다. LLM 기반의 성찰과 헤드투헤드(Head-to-head) 평가를 반복하여 기본 프롬프트를 개선하며, CNN/DailyMail 데이터셋 요약 작업에서 승률을 50%에서 62.12%로 향상시켰다. 수동 프롬프트 엔지니어링의 한계를 극복하고 데이터 기반으로 최적의 프롬프트를 도출하는 자동화 경로를 제공한다.

실무 Takeaway

Together Evaluations를 통해 폐쇄형 모델과 오픈소스 모델의 가성비를 동일 선상에서 직접 비교하고 데이터 기반의 아키텍처 결정을 내릴 수 있다.
DPO 기법으로 특정 도메인에 특화된 오픈소스 평가 모델을 학습시키면 폐쇄형 API 대비 비용은 90% 절감하면서도 더 높은 평가 정확도를 확보할 수 있다.
GEPA 프레임워크와 같은 자동화 도구를 도입하여 반복적인 수동 프롬프트 수정 작업을 줄이고 모델 성능을 체계적으로 개선할 수 있다.

언급된 리소스

API DocsTogether Evaluations Documentation

문서Deep dive: Fine-tuning open judge models