Opik 업데이트: Optimization Studio 출시 및 최신 LLM 통합 지원

핵심 요약

Opik은 AI 모델의 실험, 평가 및 성능 측정을 강화하기 위해 Optimization Studio를 새롭게 선보였다. 사용자는 UI 내에서 직접 프롬프트를 정제하고 GEPA나 HRPO 같은 전략을 사용하여 구조화된 최적화 실험을 수행할 수 있다. 또한 커스텀 대시보드에 실험 리더보드와 스팬 레벨 메트릭 차트가 추가되어 성능 비교가 용이해졌으며, OpenAI SORA와 Google Veo 같은 비디오 생성 모델의 로깅 지원도 시작되었다. Python 및 TypeScript SDK 개선을 통해 데이터셋 버전 관리와 주석 큐 지원이 강화되어 평가 워크플로우의 재현성이 향상되었다.

배경

LLM 평가 및 모니터링에 대한 기본 이해, Python 또는 TypeScript SDK 사용 경험

대상 독자

프로덕션 환경에서 LLM 및 에이전트를 개발하고 평가하는 엔지니어

의미 / 영향

이번 업데이트는 LLM 평가 도구가 단순 모니터링을 넘어 자동화된 프롬프트 최적화와 멀티모달 모델 지원으로 진화하고 있음을 보여준다. 특히 로컬 모델(Ollama)과 최신 비디오 생성 모델을 동시에 지원함으로써 개발자들이 다양한 모델 환경에서 일관된 평가 기준을 유지할 수 있도록 돕는다.

섹션별 상세

Optimization Studio를 통해 사용자는 Opik UI 내에서 직접 프롬프트를 정제하고 선택한 데이터에 대해 구조화된 최적화 실험을 실행할 수 있다. 단일 턴 프롬프트의 빠른 개선을 위한 GEPA 전략이나 프롬프트 실패 원인을 심층 분석하는 HRPO 전략 중 선택이 가능하다. 엄격한 기준 또는 모델 기반 스코어링을 적용하여 성능 트렌드를 모니터링하고 실행 결과를 나란히 비교함으로써 개선 사항을 즉시 식별할 수 있다.

커스텀 대시보드에는 실험 성능을 한눈에 비교 분석할 수 있는 세 가지 주요 기능이 도입되었다. 실험 리더보드 위젯은 최상위 성능의 구성을 빠르게 식별하도록 돕고, 메트릭 그룹화 위젯은 모델이나 데이터셋별로 성능을 세분화하여 분석한다. 또한 스팬 레벨(Span-level) 메트릭 차트를 통해 개별 단계가 전체 결과에 미치는 영향을 시각적으로 파악하여 세밀한 행동 분석이 가능하다.

SDK 및 통합 환경이 대폭 확장되어 다양한 LLM 제공업체와 도구를 지원한다. Ollama에 대한 네이티브 지원이 추가되어 로컬 및 원격 인스턴스의 모델을 자동으로 검색하고 활용할 수 있으며, Anthropic의 Claude Opus 4.6 지원도 시작되었다. 특히 OpenAI SORA와 Google Veo의 비디오 생성 출력을 직접 로깅하고 추적할 수 있는 기능이 추가되어 멀티모달 애플리케이션 평가가 가능해졌다.

Python 및 TypeScript SDK 개선으로 평가 워크플로우의 자동화와 재현성이 강화되었다. 주석 큐(Annotation Queue)를 프로그래밍 방식으로 관리하여 인간 피드백 루프를 제어할 수 있으며, 데이터셋 버전 관리 기능을 통해 데이터 변경이 결과에 미치는 영향을 명확히 추적한다. TypeScript 환경에서는 SQL과 유사한 Opik Query Language를 사용하여 프롬프트와 트레이스를 정밀하게 검색하고 필터링할 수 있다.

이미지 분석

Screenshot
프롬프트 최적화 진행 상황을 시각화한 그래프와 함께 최적의 프롬프트 점수가 0.69로 향상된 결과를 보여준다. 하단에는 실제 적용된 시스템 프롬프트 내용과 로그를 확인할 수 있는 섹션이 포함되어 있다.
Opik의 Optimization Studio 인터페이스 화면

Screenshot
여러 프롬프트 버전별로 윤리적 정렬, 진단 피드백, 이메일 품질 등의 지표를 레이더 차트와 바 차트로 비교한다. 하단의 리더보드는 각 실험의 실행 시간과 평균 점수를 기반으로 순위를 매겨 최적의 구성을 식별하게 한다.
커스텀 대시보드의 피드백 점수 분포 및 실험 리더보드

실무 Takeaway

Optimization Studio의 GEPA 및 HRPO 전략을 활용하여 프롬프트의 실패 원인을 분석하고 자동화된 최적화 루프를 구축한다.
SORA 및 Veo 통합 기능을 사용하여 비디오 생성 모델의 출력물과 메타데이터를 체계적으로 로깅하고 성능을 평가한다.
데이터셋 버전 관리 기능을 적용하여 데이터 변경에 따른 실험 결과의 변화를 추적하고 워크플로우의 재현성을 확보한다.

언급된 리소스

문서Opik Documentation