핵심 요약
Opik은 AI 모델의 실험, 평가 및 성능 측정을 강화하기 위해 Optimization Studio를 새롭게 선보였다. 사용자는 UI 내에서 직접 프롬프트를 정제하고 GEPA나 HRPO 같은 전략을 사용하여 구조화된 최적화 실험을 수행할 수 있다. 또한 커스텀 대시보드에 실험 리더보드와 스팬 레벨 메트릭 차트가 추가되어 성능 비교가 용이해졌으며, OpenAI SORA와 Google Veo 같은 비디오 생성 모델의 로깅 지원도 시작되었다. Python 및 TypeScript SDK 개선을 통해 데이터셋 버전 관리와 주석 큐 지원이 강화되어 평가 워크플로우의 재현성이 향상되었다.
배경
LLM 평가 및 모니터링에 대한 기본 이해, Python 또는 TypeScript SDK 사용 경험
대상 독자
프로덕션 환경에서 LLM 및 에이전트를 개발하고 평가하는 엔지니어
의미 / 영향
이번 업데이트는 LLM 평가 도구가 단순 모니터링을 넘어 자동화된 프롬프트 최적화와 멀티모달 모델 지원으로 진화하고 있음을 보여준다. 특히 로컬 모델(Ollama)과 최신 비디오 생성 모델을 동시에 지원함으로써 개발자들이 다양한 모델 환경에서 일관된 평가 기준을 유지할 수 있도록 돕는다.
섹션별 상세
이미지 분석

프롬프트 최적화 진행 상황을 시각화한 그래프와 함께 최적의 프롬프트 점수가 0.69로 향상된 결과를 보여준다. 하단에는 실제 적용된 시스템 프롬프트 내용과 로그를 확인할 수 있는 섹션이 포함되어 있다.
Opik의 Optimization Studio 인터페이스 화면

여러 프롬프트 버전별로 윤리적 정렬, 진단 피드백, 이메일 품질 등의 지표를 레이더 차트와 바 차트로 비교한다. 하단의 리더보드는 각 실험의 실행 시간과 평균 점수를 기반으로 순위를 매겨 최적의 구성을 식별하게 한다.
커스텀 대시보드의 피드백 점수 분포 및 실험 리더보드
실무 Takeaway
- Optimization Studio의 GEPA 및 HRPO 전략을 활용하여 프롬프트의 실패 원인을 분석하고 자동화된 최적화 루프를 구축한다.
- SORA 및 Veo 통합 기능을 사용하여 비디오 생성 모델의 출력물과 메타데이터를 체계적으로 로깅하고 성능을 평가한다.
- 데이터셋 버전 관리 기능을 적용하여 데이터 변경에 따른 실험 결과의 변화를 추적하고 워크플로우의 재현성을 확보한다.
언급된 리소스
AI 요약 · 북마크 · 개인 피드 설정 — 무료