서울대학교 DSBA 연구실LLM

LLM의 구조화된 출력 생성 능력 강화 및 벤치마크 분석

LLM이 외부 도구와 상호작용하기 위해 필수적인 구조화된 출력 생성 능력을 강화하는 SRL 학습 프레임워크와 이를 정밀하게 평가하기 위한 StructEval 벤치마크를 소개한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Schema Reinforcement Learning(SRL)은 미세 조정의 한계를 넘어 복잡한 제약 조건을 준수하는 능력을 획기적으로 높이며, StructEval은 텍스트와 시각적 요소를 아우르는 정밀한 평가 표준을 제시한다.

배경

에이전트 AI가 외부 API나 도구를 사용하려면 JSON과 같은 구조화된 데이터를 정확히 생성해야 하지만, 현재 LLM은 복잡한 스키마에서 파싱 오류를 자주 범하는 한계가 있다.

대상 독자

AI 에이전트 시스템 설계자, LLM 학습 및 평가 연구자, 구조적 데이터 추출 엔지니어

의미 / 영향

이 연구 결과는 LLM 에이전트의 신뢰성을 비약적으로 향상시켜 복잡한 엔터프라이즈 워크플로우 자동화를 가능하게 한다. 개발자는 후처리 파싱 오류를 줄이기 위한 복잡한 로직 대신, SRL 기법으로 튜닝된 모델을 사용하여 더 견고한 도구 연동 시스템을 구축할 수 있다.

챕터별 상세

00:00

구조화된 출력의 중요성과 에이전트 AI

LLM이 단순한 챗봇을 넘어 에이전트로 진화함에 따라 외부 도구 및 API와의 연동이 핵심 기능으로 부상했다. 이를 위해 LLM은 JSON, HTML, 코드와 같이 기계가 처리 가능한 Structured Data를 정확하게 생성해야 한다. 하지만 현재 모델들은 복잡한 중첩 구조나 엄격한 제약 조건이 포함된 스키마에서 파싱 오류를 빈번하게 발생시키며 이는 전체 에이전트 워크플로우의 중단으로 이어진다. 따라서 자연어 생성 능력을 넘어 구조적 논리를 유지하며 실행 가능한 형태의 결과물을 만드는 고차원적 능력이 요구된다.

•에이전트 핵심 동작은 LLM이 외부 도구를 호출하기 위한 구조적 아웃풋을 생성하는 것이다
•구조적 오류(중괄호 누락, 타입 불일치 등)는 도구 실행 실패의 직접적인 원인이 된다
•현재 최신 모델들도 복잡한 스키마 준수 능력에는 여전히 한계를 보인다

04:40

Schema Reinforcement Learning (SRL) 프레임워크

기존의 지도 미세 조정(SFT) 방식은 복잡한 JSON 생성 학습에 한계가 있어 이를 극복하기 위해 Schema Reinforcement Learning(SRL)이 제안되었다. SRL은 JSON Schema Validator를 보상 함수(Reward Function)로 활용하여 모델이 생성한 결과물의 유효성을 실시간으로 피드백한다. 특히 Thought of Structure(TOS) 기법을 도입하여 모델이 데이터를 생성하기 전 구조적 설계를 먼저 수행하도록 유도한다. 학습 과정은 샘플링, 보상 계산, PPO 알고리즘을 이용한 정책 업데이트 순으로 진행되며 부분 점수 시스템을 통해 학습 효율을 극대화했다.

•JSON Schema Validator를 강화학습의 Reward Function으로 직접 활용한다
•TOS 기법은 데이터 생성 전 구조적 주석을 먼저 작성하게 하여 정확도를 높인다
•단순 성공/실패가 아닌 부분 유효성 검사를 통한 세밀한 보상 설계가 핵심이다

15:58

SRL 실험 결과 및 성능 분석

Llama 3.2 3B 모델에 SRL을 적용한 결과, 복잡한 스키마 준수 성능이 기존 28.51%에서 72.50%로 비약적으로 향상되었다. 이는 GPT-4o와 같은 상용 모델의 성능(61.06%)을 상회하는 수치이다. 특히 특수 문자 처리(Escape)나 사용자 정의 형식 준수 등 까다로운 태스크에서 강점을 보였다. 또한 다운스트림 태스크인 도구 호출(Tool Calling) 벤치마크에서도 SRL 학습 모델이 SFT 모델보다 월등히 높은 정확도를 기록하며 실무 적용 가능성을 입증했다. 소규모 모델임에도 불구하고 구조적 학습을 통해 대형 모델에 필적하는 능력을 확보했다.

•Llama 3.2 3B 모델이 SRL 적용 후 복잡한 스키마 생성에서 GPT-4o를 능가했다
•Fine-grained Validator를 통한 부분 점수 부여가 학습 안정성에 기여했다
•정답 데이터가 부족한 상황에서도 구조적 추론 능력이 일반화되는 특성을 보였다

23:16

StructEval: 구조화된 출력 종합 벤치마크

LLM의 구조적 출력 능력을 정밀하게 평가하기 위해 StructEval 벤치마크가 설계되었다. 이는 텍스트 기반의 StructEval-T와 시각적 렌더링을 포함하는 StructEval-V로 구성된다. 총 18개의 출력 형식과 44개의 작업 유형을 포함하며 단순 텍스트 일치도가 아닌 구문 점수(Syntax Score), 키워드 점수(Keyword Score), 시각적 점수(VQA Score)를 결합하여 평가한다. 특히 중첩된 계층 구조 내에서 특정 데이터가 정확한 위치(Path)에 존재하는지 검증하는 방식은 기존 평가 체계보다 훨씬 엄격하고 실질적이다. 실험 결과 상용 모델인 GPT-4o가 가장 우수한 성능을 보였으나 오픈소스 모델들과의 격차가 존재함이 확인되었다.

•텍스트(JSON, YAML 등)와 시각적 요소(HTML, SVG 등)를 모두 아우르는 평가 체계이다
•Syntax, Keyword, VQA 세 가지 지표를 가중 합산하여 최종 점수를 산출한다
•단순 생성을 넘어 기존 구조를 다른 형식으로 바꾸는 변환(Conversion) 태스크도 포함한다

29:00

결론 및 실무적 시사점

에이전트 AI의 성공은 LLM이 얼마나 정확하게 구조화된 데이터를 생성하느냐에 달려 있다. SRL과 같은 강화학습 기법은 모델이 엄격한 문법 규칙과 계층 구조를 동시에 준수하도록 훈련시키는 데 매우 효과적이다. 또한 StructEval과 같은 정밀한 평가 도구는 모델의 약점을 파악하고 개선 방향을 설정하는 데 필수적이다. 실무적으로는 모델이 생성한 결과물을 단순히 파싱하는 데 그치지 않고, 학습 단계에서부터 구조적 제약 조건을 내재화시키는 것이 에이전트의 신뢰성을 확보하는 가장 확실한 방법이다.

•구조적 출력 능력은 에이전트 AI 구현을 위한 핵심 기초 역량이다
•강화학습 기반의 SRL은 소형 모델의 성능을 대형 모델 수준으로 끌어올릴 수 있다
•정교한 보상 설계와 다각도 평가 지표가 모델의 신뢰성을 보장한다

실무 Takeaway

에이전트 성능의 병목은 LLM이 도구 호출 규격(JSON 스키마)을 어기는 데서 발생하므로, 단순 SFT보다 SRL과 같은 구조적 강화학습이 효과적이다
TOS(Thought of Structure) 기법을 적용하여 데이터를 생성하기 전 구조적 설계를 먼저 수행하게 함으로써 복잡한 중첩 구조의 정확도를 높일 수 있다
구조화된 출력 평가 시 단순 텍스트 일치도가 아닌 구문(Syntax) 유효성과 키워드 매칭(Keyword Score)을 결합한 다각도 평가가 필수적이다
소형 모델(3B)이라도 강화학습을 통해 특정 도메인의 구조적 생성 능력을 대형 모델(GPT-4o) 수준으로 강화할 수 있다

언급된 리소스

논문Learning to Generate Structured Output with Schema Reinforcement Learning

논문StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 23.수집 2026. 02. 23.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

LLM의 구조화된 출력 생성 능력 강화 및 벤치마크 분석 | AI Trends