One-Eval: 자동화 및 추적 가능한 LLM 평가를 위한 에이전트 시스템

LLM 성능 평가는 모델 개발의 핵심이지만, 적절한 벤치마크를 찾고 복잡한 코드를 설정하는 과정에 막대한 수동 노력이 소요된다. One-Eval은 사용자의 자연어 요청을 실행 가능한 워크플로우로 자동 변환하여 평가 효율성을 극대화한다. 특히 단순 점수 나열을 넘어 의사결정에 필요한 심층 진단 보고서를 제공한다는 점에서 실무적 가치가 크다.

핵심 요약

왜 중요한가

핵심 기여

NL2Bench를 통한 의도 기반 벤치마크 계획

사용자의 자연어 요청을 분석하여 평가 도메인, 제약 조건, 대상 모델을 식별하고 최적의 벤치마크 세트를 자동으로 구성한다.

BenchResolve 기반의 자동 데이터 처리

Hugging Face Hub 등에서 데이터셋을 자동 획득하고, 이기종 스키마를 표준 형식으로 정규화하여 즉시 실행 가능한 환경을 구축한다.

의사결정 중심의 다층적 진단 보고서 생성

단순 스칼라 점수를 넘어 오류 원인 분석(Root Cause Analysis), 사례별 분석(Case Study) 등을 포함한 입체적인 평가 보고서를 제공한다.

추적 가능성을 보장하는 Human-in-the-loop 설계

에이전트의 결정 단계마다 사용자가 개입하여 수정하거나 승인할 수 있는 체크포인트를 제공하며, 모든 실행 과정을 증거 트레일로 기록한다.

핵심 아이디어 이해하기

기존의 LLM 평가는 고정된 설정 파일과 특정 벤치마크 코드베이스에 의존하는 정적인 방식이었다. 이는 새로운 모델이나 도메인이 등장할 때마다 개발자가 직접 코드를 수정하고 데이터를 매핑해야 하는 한계를 갖는다. One-Eval은 이러한 '평가 과정' 자체를 LLM 에이전트가 수행해야 할 추론 작업으로 정의한다.

핵심 원리는 사용자의 추상적인 의도를 구조화된 계획으로 변환하는 것이다. 예를 들어 '수학 능력을 평가해줘'라는 요청이 들어오면, 에이전트는 내부 갤러리나 외부 저장소에서 GSM8K와 같은 관련 데이터셋을 검색하고, 각 데이터셋의 필드 구조를 분석하여 시스템의 표준 입력 형식에 맞게 실시간으로 매핑한다. 이는 마치 숙련된 엔지니어가 수동으로 수행하던 벤치마크 탐색 및 환경 설정을 에이전트가 대신 수행하는 것과 같다.

결과적으로 사용자는 복잡한 엔지니어링 지식 없이도 자연어만으로 정교한 평가 파이프라인을 구축할 수 있다. 또한 모든 과정이 기록되므로 에이전트가 왜 특정 벤치마크를 선택했는지, 어떤 기준으로 점수를 계산했는지 투명하게 확인할 수 있어 평가 결과의 신뢰도가 확보된다.

방법론

One-Eval은 세 가지 주요 단계로 구성된 모듈형 파이프라인을 채택한다. 첫 번째 단계인 NL2Bench는 사용자의 자연어 요청을 입력받아 구조화된 의도(Intent)를 추출한다. 이후 로컬 갤러리(77개 큐레이션된 벤치마크)와 Hugging Face Hub를 대상으로 검색을 수행한다. 이때 쿼리와 벤치마크 설명을 고차원 벡터로 변환한 뒤 두 벡터 사이의 각도를 계산하는 cosine similarity를 수행한다. [두 벡터의 내적을 크기의 곱으로 나눔 → -1에서 1 사이의 값 산출 → 1에 가까울수록 의미적 유사도가 높음 → 가장 관련성 높은 벤치마크를 상위에 배치함]

두 번째 단계인 BenchResolve는 선택된 벤치마크를 실행 가능한 상태로 만든다. 계층적 해결 전략을 사용하여 로컬에 검증된 설정이 있으면 즉시 로드하고, 없으면 외부 저장소에서 데이터셋 카드와 메타데이터를 읽어온다. 이 과정에서 이기종 데이터 스키마를 통합 인터페이스인 BenchInfo 객체로 정규화한다. 유효성 검사 단계에서는 필수 필드(입력, 정답 등)의 존재 여부를 확인하여 실행 중 발생할 수 있는 런타임 에러를 사전에 방지한다.

마지막 단계인 Metrics & Reporting은 작업 유형에 맞는 지표를 추천하고 실행한다. 예를 들어 수학 문제의 경우 math_verify 지표를 사용한다. [모델 출력과 정답 텍스트를 입력으로 받음 → 텍스트 정규화 및 기호 단순화 수행 → 수학적 동등성 비교 → 불리언 결과 산출 → 단순 문자열 일치 오탐지를 줄이고 정확한 정답률 측정] 최종적으로 ReportGenAgent가 수집된 데이터를 바탕으로 거시적 성능 프로파일링부터 미시적 사례 분석까지 포함된 다층적 보고서를 생성한다.

주요 결과

100개의 다양한 자연어 평가 요청을 대상으로 실험한 결과, One-Eval은 높은 자동화 성능을 입증했다. 평가 계획 생성 성공률(Plan Executable Rate)은 99%에 달했으며, 데이터 다운로드와 스키마 매핑을 포함한 자동 완성 성공률(Auto-Complete Rate)은 85%를 기록했다. 최종적으로 지표 추천 및 보고서 생성까지 전 과정을 수동 개입 없이 완료한 전체 성공률(Full Plan Rate)은 84%로 나타났다.

효율성 측면에서 한 건의 평가 요청을 처리하는 데 소요된 시간의 중앙값은 약 11.4분(평균 13분)이었다. 이는 사람이 직접 벤치마크를 검색하고 환경을 설정하는 데 걸리는 시간과 비교했을 때 획기적인 단축이다. 또한 Feature-level 비교 실험에서 One-Eval은 기존의 lm-eval-harness나 OpenCompass와 달리 커스텀 벤치마크 지원, 자동화, 벤치마크 및 지표 추천 기능을 모두 갖춘 유일한 프레임워크임이 확인됐다.

실무 활용

One-Eval은 기업 환경에서 LLM의 도입 여부를 결정하거나 모델 업데이트 시 성능 변화를 빠르게 검증해야 하는 실무자에게 최적화되어 있다. 복잡한 코딩 없이 자연어 요청만으로 표준화된 평가 보고서를 얻을 수 있어 비전문가도 활용 가능하다.

새로운 오픈소스 모델(예: Llama 3)이 특정 도메인(예: 법률, 의료)에서 기존 모델보다 우수한지 즉각 비교 평가
사내 구축된 커스텀 데이터셋을 활용하여 모델의 미세 조정(Fine-tuning) 효과를 자동 측정하는 파이프라인 구축
모델 릴리스 전 안전성 및 윤리 가이드라인 준수 여부를 다양한 벤치마크를 통해 다각도로 진단
평가 결과의 근거 데이터를 추적하여 모델의 오답 패턴을 분석하고 프롬프트 엔지니어링 방향 설정

기술 상세

One-Eval의 아키텍처는 확장성과 추적 가능성에 초점을 맞춘다. 시스템은 각 단계를 독립적인 에이전트 노드로 구성하며, 노드 간 데이터 전달은 표준화된 JSON 스키마를 통해 이루어진다. 특히 BenchResolveAgent는 로컬 레지스트리를 우선 탐색하는 계층적 구조를 가져 빈번하게 사용되는 벤치마크의 실행 안정성을 보장한다.

수학적 기반 측면에서 리트리벌 엔진은 임베딩 기반 모드와 TF-IDF 모드를 모두 지원한다. 임베딩 모드는 의미적 유사성을 포착하는 데 유리하며, TF-IDF 모드는 특정 키워드(예: 데이터셋 이름)가 포함된 경우 가중치를 부여하여 정확도를 높인다. 두 방식의 결과를 병합할 때 임베딩 점수에는 엄격한 임계값(0.5)을, TF-IDF에는 완화된 임계값(0.3)을 적용하여 정밀도와 재현율의 균형을 맞춘다.

구현 세부사항으로는 데이터 흐름 엔진(DataFlow Evaluator)을 통해 대규모 데이터셋의 병렬 처리를 지원하며, 모든 중간 산출물(EvalPlan, BenchInfo 등)을 영구 저장하여 사후 감사가 가능하도록 설계했다. 이는 산업 현장에서 평가 결과의 재현성과 투명성이 요구되는 상황을 반영한 기술적 차별점이다.

한계점

현재 One-Eval은 주로 텍스트 기반의 벤치마크에 집중되어 있으며, 향후 더 넓은 범위의 작업과 멀티모달리티(Multimodality)에 대한 지원이 필요하다. 또한 롱테일(Long-tail) 벤치마크에 대한 지원을 더욱 강화해야 한다는 점이 한계로 언급된다.

키워드

LLM Evaluation(LLM 평가)Agentic Workflow(에이전트 기반 워크플로우)NL2Bench(자연어 기반 벤치마크 계획)BenchResolve(벤치마크 자동 해결)MLOps(기계 학습 운영)Benchmark(벤치마크)

One-Eval: 자동화 및 추적 가능한 LLM 평가를 위한 에이전트 시스템

핵심 요약

왜 중요한가

핵심 기여

NL2Bench를 통한 의도 기반 벤치마크 계획

사용자의 자연어 요청을 분석하여 평가 도메인, 제약 조건, 대상 모델을 식별하고 최적의 벤치마크 세트를 자동으로 구성한다.

BenchResolve 기반의 자동 데이터 처리

Hugging Face Hub 등에서 데이터셋을 자동 획득하고, 이기종 스키마를 표준 형식으로 정규화하여 즉시 실행 가능한 환경을 구축한다.

의사결정 중심의 다층적 진단 보고서 생성

단순 스칼라 점수를 넘어 오류 원인 분석(Root Cause Analysis), 사례별 분석(Case Study) 등을 포함한 입체적인 평가 보고서를 제공한다.

추적 가능성을 보장하는 Human-in-the-loop 설계

에이전트의 결정 단계마다 사용자가 개입하여 수정하거나 승인할 수 있는 체크포인트를 제공하며, 모든 실행 과정을 증거 트레일로 기록한다.

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

새로운 오픈소스 모델(예: Llama 3)이 특정 도메인(예: 법률, 의료)에서 기존 모델보다 우수한지 즉각 비교 평가
사내 구축된 커스텀 데이터셋을 활용하여 모델의 미세 조정(Fine-tuning) 효과를 자동 측정하는 파이프라인 구축
모델 릴리스 전 안전성 및 윤리 가이드라인 준수 여부를 다양한 벤치마크를 통해 다각도로 진단
평가 결과의 근거 데이터를 추적하여 모델의 오답 패턴을 분석하고 프롬프트 엔지니어링 방향 설정

One-Eval: 자동화 및 추적 가능한 LLM 평가를 위한 에이전트 시스템

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

One-Eval: 자동화 및 추적 가능한 LLM 평가를 위한 에이전트 시스템

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

실무 활용

기술 상세

한계점

키워드

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글