핵심 요약
LLM이 의료나 법률 같은 고위험 환경에 도입되면서 명시적인 규칙을 정확히 따르는 능력이 중요해졌다. 이 논문은 단순 수학 문제를 넘어 복잡한 법령과 정책을 해석하는 능력을 평가하는 대규모 데이터셋을 제공하며, 심볼릭 코드 생성을 통한 추론의 신뢰성 확보 방안을 제시한다.
왜 중요한가
LLM이 의료나 법률 같은 고위험 환경에 도입되면서 명시적인 규칙을 정확히 따르는 능력이 중요해졌다. 이 논문은 단순 수학 문제를 넘어 복잡한 법령과 정책을 해석하는 능력을 평가하는 대규모 데이터셋을 제공하며, 심볼릭 코드 생성을 통한 추론의 신뢰성 확보 방안을 제시한다.
핵심 기여
DEONTICBENCH 벤치마크 구축
미국 연방 세법, 항공사 수하물 규정, 이민 행정, 주택법 등 4개 도메인에 걸친 6,232개의 복잡한 규칙 추론 과제를 포함한다.
심볼릭 솔버 기반 워크플로우 도입
모델이 법령과 사실 관계를 실행 가능한 Prolog 코드로 변환하고, 이를 외부 솔버로 실행하여 답을 도출하는 감사 가능한 추론 방식을 제안한다.
최신 LLM 성능 분석 및 한계 식별
o1, GPT-5.1 등 최신 모델들도 고난도 하위 집합에서 50% 미만의 성능을 보이며, 특히 수치 계산과 복잡한 규칙 선택에서 취약함을 입증했다.
강화학습을 통한 코드 생성 최적화 연구
SFT와 GRPO 기반 강화학습을 적용하여 Prolog 생성 품질을 개선하려 시도했으나, 여전히 정밀한 규칙 기반 계산에서는 한계가 있음을 확인했다.
핵심 아이디어 이해하기
기존의 LLM은 Chain-of-Thought(CoT)를 통해 단계별 추론을 수행하지만, 법률과 같이 엄밀한 규칙이 적용되는 영역에서는 여전히 할루시네이션(환각)을 일으키거나 논리적 비약을 범한다. 이는 Transformer 아키텍처가 기본적으로 다음 토큰을 확률적으로 예측하는 구조이기 때문에, 명시적인 논리 규칙을 강제하기 어렵다는 근본적 한계에서 기인한다.
이 논문은 이러한 한계를 극복하기 위해 '심볼릭 추론' 개념을 결합한다. 모델이 자연어로 된 법령을 직접 해석하는 대신, 이를 Prolog라는 논리 프로그래밍 언어로 번역하게 한다. 이는 마치 사람이 복잡한 계산을 머릿속으로만 하는 대신 수식으로 옮겨 적고 계산기를 사용하는 것과 유사하다. 논리 엔진이라는 '계산기'를 활용함으로써 추론 과정의 투명성과 정확성을 동시에 확보하려는 시도이다.
결과적으로 모델은 단순한 텍스트 생성을 넘어, 법률 조항 간의 의존 관계와 수치적 임계값을 코드로 명시화해야 한다. 이러한 접근 방식은 모델이 규칙을 잘못 선택하거나 사실 관계를 오인했을 때 실행 로그를 통해 즉각적으로 오류를 확인할 수 있게 하며, 이는 고위험 의사결정 시스템에서 필수적인 '설명 가능성'을 제공한다.
방법론
DEONTICBENCH는 SARA(세법), Airline(항공 규정), Housing(주택법), USCIS-AAO(이민 항소)의 4개 도메인으로 구성된다. 각 데이터는 법령(Statute), 사건 사실(Case Facts), 질문(Question), 정답 레이블로 이루어져 있으며, 모든 인스턴스에 대해 실행 가능한 Prolog 참조 코드를 포함한다. [자연어 법령 및 사실 입력 → LLM의 Prolog 코드 번역 → SWI-Prolog 솔버 실행 → 최종 결과 도출] 순으로 추론이 진행된다.
모델 학습을 위해 Qwen2.5-32B-Instruct를 기반으로 SFT(Supervised Fine-Tuning)와 DPO(Direct Preference Optimization), 그리고 Dr. GRPO(Group Relative Policy Optimization) 강화학습을 적용했다. Dr. GRPO는 생성된 코드가 성공적으로 실행되어 정답을 맞히면 보상 1을 주고, 실행에 실패하더라도 참조 코드와의 술어(predicate) 일치도(Jaccard similarity)를 계산하여 부분 점수를 부여한다. [생성 코드와 참조 코드의 술어 집합 비교 → 교집합 크기를 합집합 크기로 나눔 → 0.2를 곱해 보상 산출 → 모델 가중치 갱신] 과정을 통해 코드의 구조적 정확도를 높인다.
주요 결과
최신 모델인 o1과 GPT-5.1 등도 고난도 세트(Hard subset)에서 고전하는 것으로 나타났다. SARA Numeric 과제에서 o3 모델은 Zero-shot 설정 시 44.4%의 정확도에 그쳤으며, Housing 도메인에서는 GPT-4.1이 46.6 Macro-F1 점수를 기록했다. 이는 복잡한 법률 문맥에서 적절한 규칙을 선택하고 수치적 임계값을 정확히 적용하는 것이 현재 LLM에게 매우 어려운 과제임을 시사한다.
강화학습 적용 결과, SFT와 DPO를 거친 모델은 이진 분류 과제(SARA Binary, USCIS-AAO)에서 성능 향상을 보였다. 예를 들어 USCIS-AAO의 Few-shot 성능은 10.3에서 45.7 이상으로 크게 상승했다. 그러나 정밀한 수치 계산이 필요한 SARA Numeric에서는 여전히 10% 미만의 낮은 정확도를 기록하여, 현재의 RLHF 방식이 복잡한 심볼릭 논리 구조를 완벽히 학습시키기에는 부족함이 확인됐다.
기술 상세
DEONTICBENCH는 기존의 RuleArena나 CL-bench보다 훨씬 큰 규모(6,232개 과제)를 자랑하며, 특히 USCIS-AAO라는 실제 이민 항소 데이터를 신규 구축하여 실무적 가치를 높였다. 아키텍처 측면에서는 LLM-to-Prolog 파이프라인을 사용하여, 모델이 법령 모듈을 동적으로 생성하고 이를 실행 환경에서 컴파일 체크하는 방식을 채택했다.
오류 분석 결과, 도메인별로 실패 원인이 상이하게 나타났다. 법률적으로 복잡한 Housing이나 USCIS-AAO에서는 'Wrong Rule(잘못된 규칙 선택)'이 지배적인 원인이었으며, 수치 계산이 핵심인 SARA와 Airline에서는 'Entity/Fact(사실 추출 오류)'와 'Numerical(수치 계산 오류)'이 주요 병목 현상으로 지목됐다. 이는 향후 연구가 단순한 모델 크기 확장이 아닌, 도메인 특화된 정보 추출 및 논리 구조화에 집중해야 함을 시사한다.
한계점
USCIS-AAO 데이터셋 구축 시 사용된 사실 추출 과정이 GPT-5-mini 보조와 인간 검수를 거쳤으나, 법률적 분석과 사실 관계의 경계가 완벽히 객관적이지 않을 수 있다. 또한, 현재의 강화학습 보상 체계가 수치적 정밀도가 요구되는 과제에서는 성능 개선 효과가 제한적이라는 점이 명시됐다.
실무 활용
법률, 보험, 세무 등 명확한 규정이 존재하는 도메인에서 LLM 기반의 의사결정 보조 시스템을 구축할 때 활용 가능하다.
- 세무 자동화 시스템에서 개별 사례에 대한 세법 적용 및 납부액 계산 보조
- 항공사 고객 센터에서 수하물 규정에 따른 추가 비용 자동 산출 및 근거 제시
- 이민 행정 업무에서 항소 사례의 승인 가능성을 법령에 근거하여 사전 검토
- 기업 내부 정책 준수 여부를 확인하기 위한 자동화된 컴플라이언스 체크 도구
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.