Langfuse, UI에서 직접 코드 기반 평가자(Code-based Evaluators) 지원 시작

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Langfuse가 UI 내에서 Python 및 TypeScript로 작성 가능한 코드 기반 평가자 기능을 도입하여 결정론적 평가를 효율화함.

Langfuse 메인테이너가 LLM-as-judge의 비용과 속도 문제를 해결하기 위해 UI에서 직접 코드 기반 평가자를 작성하고 실행할 수 있는 기능을 공개했다.

코드 기반 평가자의 도입으로 LLM 평가 파이프라인의 비용 효율성이 크게 개선될 것으로 보인다. 결정론적 검증과 의미론적 평가를 분리하여 운영하는 방식이 표준적인 MLOps 워크플로로 자리 잡을 전망이다.

메인테이너의 직접적인 기능 업데이트 공유로, 사용자들에게 긍정적인 반응을 얻고 있다.

기존 LLM-as-judge 방식은 비용과 속도 측면에서 비효율적일 수 있다. JSON 파싱, 스키마 검증, 비즈니스 규칙 확인 등 결정론적 검증은 LLM 없이 코드로 처리하는 것이 더 빠르고 정확하며 재현성이 높다.

Langfuse는 UI에서 직접 Python 또는 TypeScript로 평가 함수를 작성하는 기능을 제공한다. 작성된 함수는 프로덕션 트레이스나 데이터셋 실험에 즉시 적용 가능하며, 지속적으로 실행되어 결과를 생성한다.

결과값은 기존 LLM-as-judge나 사람의 평가 점수와 함께 트레이스 뷰, 실험 비교, 대시보드에 통합되어 표시된다. 이를 통해 사용자는 코드 기반 평가와 LLM 평가를 한곳에서 관리할 수 있다.

결정론적 검증은 코드로, 의미론적 품질 평가는 LLM으로 수행하는 하이브리드 접근 방식이 가장 완전한 품질 평가를 제공한다. 이 방식을 통해 불필요한 토큰 소모를 줄이고 평가 정확도를 높일 수 있다.

Langfuse추천

LLM 평가 및 모니터링 플랫폼