이야기 속의 미아: 대형 언어 모델의 장문 스토리 생성에서 발생하는 일관성 버그 분석

왜 중요한가

LLM이 수만 단어의 긴 이야기를 쓸 수 있게 되었지만, 앞뒤가 맞지 않는 설정을 내뱉는 일관성 결여 문제가 심각합니다. 이 논문은 이러한 오류를 정교하게 분류하고 자동으로 탐지하는 벤치마크를 제시하여, 더 똑똑하고 믿음직한 AI 작가를 만드는 기술적 토대를 마련합니다.

핵심 기여

ConStory-Bench 구축

4가지 시나리오와 19가지 세부 오류 유형을 포함한 2,000개의 장문 스토리 생성용 프롬프트 데이터셋을 제안함.

CONSTORY-CHECKER 개발

텍스트 증거와 논리적 근거를 바탕으로 일관성 오류를 자동 탐지하고 구체적인 인용문을 제시하는 4단계 평가 파이프라인을 설계함.

일관성 오류 분류 체계 정립

시간적 논리, 캐릭터 설정, 세계관, 사실 관계, 서사 스타일 등 5개 핵심 차원의 오류 계층 구조를 정의하여 체계적인 분석 틀을 마련함.

오류 발생 패턴 및 예측 신호 발견

토큰 수준의 Entropy가 높을 때 오류 발생 확률이 높으며, 오류는 주로 서사의 중간 부분(40-60%)에서 집중적으로 나타남을 밝힘.

핵심 아이디어 이해하기

Transformer 기반 LLM은 Attention Mechanism을 통해 문맥을 파악하지만, 시퀀스가 길어질수록 과거의 정보를 정확히 추적하는 데 한계를 보인다. 특히 수천 토큰 이전에 정의된 캐릭터의 특징이나 사건의 순서를 망각하고 현재 생성 중인 문장과 충돌하는 일관성 버그가 발생한다. 기존의 평가 방식은 문장의 유창함에만 집중하여 이러한 논리적 결함을 잡아내지 못했다.

이 논문은 모델이 다음 토큰을 예측할 때의 불확실성인 Entropy가 일관성 오류와 밀접하게 연관되어 있다는 점에 주목한다. 모델이 확신 없이 토큰을 생성하는 구간에서 설정 충돌이 일어날 가능성이 높다는 원리를 이용하여, 단순한 문법 체크를 넘어선 논리적 검증 체계를 구축한다.

결과적으로 CONSTORY-CHECKER는 LLM-as-a-judge 방식을 고도화하여, 두 개의 텍스트 조각이 왜 서로 모순되는지 구체적인 증거 사슬을 제시한다. 이는 모델이 스스로의 오류를 인지하지 못하더라도 외부의 강력한 모델이 논리적 모순을 정밀하게 타격하여 탐지할 수 있게 함으로써 장문 서사의 신뢰성을 확보한다.

방법론

7개의 공개 코퍼스에서 추출한 데이터를 바탕으로 Generation, Continuation, Expansion, Completion의 4가지 작업 유형으로 프롬프트를 재구성한다. 각 프롬프트는 8,000~10,000단어 분량의 출력을 유도하도록 설계되었으며, o4-mini 모델을 사용하여 프롬프트의 품질을 관리한다.

CONSTORY-CHECKER는 4단계로 작동한다. 1단계(Extraction)에서는 5개 카테고리별 가이드를 통해 모순 가능성이 있는 구절을 추출한다. 2단계(Pairing)에서는 추출된 구절들을 쌍으로 묶어 일관성 여부를 판별한다. 3단계(Evidence Chains)에서는 왜 모순인지 논리적 근거와 원문 인용문을 기록하며, 4단계(JSON Report)에서 이를 구조화된 리포트로 출력한다.

성능 측정을 위해 CED(Consistency Error Density)와 GRR(Group Relative Rank)을 도입한다. CED는 [총 오류 수와 단어 수를 입력으로] → [단어 수를 1만 단위로 나누어 오류 수를 나누는 연산을 수행해] → [정규화된 밀도 값을 얻고] → [글의 길이에 상관없이 일관성 오류 발생 빈도를 비교할 수 있는 지표]가 된다. GRR은 [모델의 품질 점수를 입력으로] → [동일 프롬프트 그룹 내에서 상대적 순위를 매기는 연산을 수행해] → [평균 순위 값을 얻고] → [프롬프트별 난이도 차이를 배제한 모델의 순수 성능 순위]를 나타낸다.

주요 결과

GPT-5-REASONING이 가장 낮은 CED(0.113)와 최고의 GRR(3.05)을 기록하며 압도적인 성능을 보였다. Gemini-2.5-Pro와 Claude-Sonnet-4.5가 그 뒤를 이었으며, 오픈소스 모델 중에서는 GLM-4.6과 Qwen3-32B가 유료 모델에 근접한 성능을 나타냈다. 오류는 주로 사실 및 세부 사항과 타임라인 및 플롯 논리 카테고리에서 가장 많이 발생했다.

오류 발생 위치 분석 결과, 사실 설정은 주로 서사 초반(15-30%)에 이루어지지만 이를 위반하는 모순은 주로 중반부(40-60%)에서 집중적으로 발생함이 확인됐다. 또한 아무런 맥락 없이 이야기를 시작해야 하는 Generation 작업이 기존 맥락을 이어가는 Continuation보다 훨씬 높은 오류율을 보였다.

토큰 수준의 Shannon Entropy 분석 결과, 오류가 포함된 문장은 전체 평균보다 Entropy가 12~19% 높게 나타났다. [다음 토큰의 확률 분포를 입력으로] → [각 확률에 로그를 곱해 합산하는 연산을 수행해] → [정보량 수치를 얻고] → [모델이 현재 문맥에서 얼마나 혼란을 느끼고 있는지 나타내는 척도]로 활용한 결과, 높은 Entropy가 일관성 오류의 신뢰할 수 있는 조기 경보 신호임이 입증됐다.

실무 활용

장문 콘텐츠를 생성하는 AI 서비스에서 일관성을 자동으로 검증하고 수정하는 파이프라인으로 활용 가능하다. 특히 웹소설, 시나리오 작가 보조 도구에서 설정 오류를 실시간으로 잡아내는 데 유용하다.

AI 기반 장편 소설 집필 보조 시스템의 설정 충돌 자동 탐지
게임 시나리오 및 방대한 세계관 설정의 논리적 일관성 검증 도구
교육용 장문 콘텐츠 자동 생성 시 사실 관계 및 서사 품질 관리
LLM의 장기 기억 및 문맥 유지 능력을 평가하기 위한 기업용 벤치마크

기술 상세

5개 대분류와 19개 소분류로 구성된 계층적 오류 체계를 제안한다. 여기에는 절대 시간 모순, 캐릭터 기억 오류, 세계관 물리 법칙 위반, 외모 묘사 불일치, 시점 혼동 등이 포함되며, 각 오류는 원문 인용을 통해 근거가 제시된다.

CONSTORY-CHECKER는 o4-mini 모델을 평가자로 사용하여 정확도와 효율성의 균형을 맞췄다. 실험 결과 이 자동화 시스템은 인간 전문가보다 3.2배 높은 오류 발견율(Recall)을 기록하며 인간의 인지적 한계를 극복했다. 이는 장문 서사 검증에서 자동화된 파이프라인이 필수적임을 시사한다.

연구 결과 일관성 오류는 출력 길이에 따라 선형적으로 증가하는 경향을 보였다. 특히 모델이 선호하는 출력 길이를 넘어설 때 오류 밀도가 급격히 높아지는 현상이 관찰되었으며, 이는 모델 아키텍처별로 최적의 일관성 유지 구간이 다름을 의미한다.

한계점

본 연구는 영어 소설 및 서구권 서사 관습에 국한되어 있으며, 다른 문화권이나 언어에서의 적용 가능성은 검증되지 않았다. 또한 의도적인 반전이나 서술 트릭을 실제 오류와 구분하지 못하는 이진 판별 방식의 한계가 존재한다.

키워드

LLM(대형 언어 모델)장문 생성(Long-form Generation)일관성 검증(Consistency Checking)벤치마크(Benchmark)서사 구조(Narrative Structure)