구조화된 출력 벤치마크: JSON 형식 준수보다 값의 정확성이 핵심

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

TL;DR

기존의 JSON 스키마 준수 여부를 넘어 실제 데이터 값의 정확도와 신뢰성을 측정하는 새로운 구조화된 출력 벤치마크가 공개됐다.

배경

LLM의 구조화된 출력 성능을 평가할 때 단순히 JSON 형식을 맞추는 것보다 내부 데이터 값의 정확도가 더 중요하다는 문제의식에서 새로운 벤치마크가 개발됐다. 작성자는 7가지 핵심 지표를 기반으로 한 평가 결과와 오픈소스 모델의 성과를 공유했다.

의미 / 영향

이 토론을 통해 구조화된 출력의 핵심 과제가 '형식'에서 '내용의 정확성'으로 이동하고 있음이 확인됐다. 개발자들은 모델 선택 시 단순 벤치마크 점수보다 실제 데이터 추출 정확도를 우선시해야 하며, 오픈소스 모델이 이 분야에서 강력한 대안이 될 수 있음을 시사한다.

커뮤니티 반응

작성자가 벤치마크 결과와 함께 논문, 리더보드, 오픈소스 코드를 공유하여 기술적 신뢰성을 얻었으며, 특히 JSON 통과율과 실제 정확도 사이의 간극에 대해 커뮤니티의 관심이 높다.

주요 논점

01찬성다수

단순 스키마 준수보다 실제 값의 정확도를 측정하는 것이 실무적인 LLM 활용에 훨씬 유용하다.

합의점 vs 논쟁점

합의점

현재 LLM들은 JSON 형식을 만드는 능력에 비해 그 안의 내용을 정확하게 채우는 능력이 부족하다.
오픈소스 모델들의 성능이 비약적으로 발전하여 특정 작업에서는 상용 모델을 위협하고 있다.

실용적 조언

구조화된 출력을 사용할 때는 단순히 JSON 파싱 성공 여부만 체크하지 말고, 중요 필드에 대한 값 검증 로직을 반드시 추가하라.
비용 효율성을 고려한다면 GLM-4와 같은 고성능 오픈소스 모델을 구조화된 데이터 추출 작업에 검토해볼 가치가 있다.

섹션별 상세

기존 벤치마크들이 JSON 스키마 통과율에만 집중하여 실제 값의 정확도를 간과한다는 점이 지적됐다. 인보이스에서 총액을 잘못 추출하거나 날짜 매핑 오류로 배열 순서가 뒤섞이는 등의 실질적인 성능 저하 문제를 해결하기 위해 가치 정확도(Value Accuracy)를 최우선 지표로 설정했다. 이는 검증된 정답(Ground Truth) JSON과 모델의 출력을 직접 비교하여 정확성을 측정한다.

벤치마크는 단순 형식을 넘어 7가지 다각적 지표를 통해 모델을 평가한다. JSON 통과율, 타입 안전성, 경로 재현율, 구조 커버리지와 같은 구조적 지표 외에도 값이 문맥에 근거하는지 확인하는 충실도(Faithfulness)를 포함한다. 모든 리프 노드의 값이 정확해야만 완벽한 응답(Perfect Response)으로 인정하는 엄격한 기준을 적용했다.

오픈소스 모델인 GLM-4가 GPT-4o(원문 표기 GPT 5.4는 오타로 추정되나 원문 준수)에 이어 종합 2위를 차지하며 뛰어난 성능을 입증했다. 대다수 모델이 JSON 스키마 통과율에서는 90% 이상을 기록했으나, 실제 값의 정확도(Value Accuracy)에서는 점수가 급격히 하락하는 현상이 공통적으로 관찰됐다. 이는 모델들이 형식은 잘 흉내 내지만 실제 데이터 처리 능력에는 여전히 한계가 있음을 시사한다.

텍스트뿐만 아니라 이미지와 오디오를 포함한 멀티모달 환경에서의 구조화된 출력 성능도 함께 측정됐다. 각 모달리티별 최적의 모델이 다르게 나타났으며, 전체 코드와 데이터셋을 오픈소스로 공개하여 업계의 결정론적 작업 수행 능력을 높이고자 했다. 이러한 측정 도구의 공개는 구조화된 출력의 품질을 정량화하고 개선하는 첫걸음이 된다.

용어 해설

Structured Output: — LLM이 생성하는 응답을 JSON이나 XML과 같이 사전에 정의된 특정 형식에 맞춰 출력하는 기술이다. 데이터 추출이나 API 연동 시 시스템 간의 상호운용성을 보장하기 위해 필수적이며, 단순히 형식을 맞추는 것을 넘어 내부 값의 정확성이 중요하다.
JSON Schema: — JSON 데이터의 구조를 정의하고 검증하기 위한 선언적 언어이다. 데이터 필드의 이름, 타입, 필수 여부 등을 명시하여 모델이 생성한 출력이 기술적 요구사항을 충족하는지 확인하는 기준이 된다.
Hallucination: — AI 모델이 사실과 다르거나 문맥에 맞지 않는 정보를 그럴듯하게 생성하는 현상이다. 구조화된 출력에서는 스키마 형식은 맞추더라도 내부의 수치나 날짜 등을 잘못 생성하는 '값의 부정확성' 문제로 나타난다.
Pass Rate: — 모델이 생성한 결과물이 주어진 제약 조건이나 테스트 케이스를 성공적으로 충족한 비율을 의미한다. 본문에서는 JSON 형식을 올바르게 생성했는지를 나타내는 지표로 사용된다.

언급된 도구

GLM-4추천

구조화된 출력 벤치마크에서 높은 성적을 거둔 언어 모델

언급된 리소스

문서Structured Output Benchmark Blog

DemoFull Leaderboard

논문SOB Paper (Pending arXiv)