컨텍스트는 결코 충분히 길지 않다: 긴 문서 세트에 대한 확장 가능한 질의응답을 위한 구조화된 추론

LLM의 컨텍스트 윈도우가 수백만 토큰으로 늘어났음에도 불구하고, 수천 개의 문서를 동시에 분석해야 하는 실무에서는 여전히 한계가 존재한다. 이 논문은 비정형 텍스트를 관계형 데이터베이스로 변환하여 SQL로 추론함으로써, 컨텍스트 제한 없이 무한한 규모의 데이터를 정확하고 저렴하게 처리하는 새로운 패러다임을 제시한다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

구조화된 추론(Structured Reasoning) 패러다임

LLM이 긴 텍스트를 직접 읽고 답하는 대신, 정보를 관계형 데이터베이스(RDB)로 추출한 뒤 SQL 쿼리를 통해 답을 도출하는 방식을 도입하여 컨텍스트 윈도우의 물리적 한계를 극복했다.

데이터 화해(Data Reconciliation) 단계 도입

여러 문서 조각에서 중복되거나 상충되는 정보를 감지하고 수정하기 위해 출처(Provenance)와 추출 근거(Rationale)를 활용하는 에이전트 기반의 데이터 정제 프로세스를 설계했다.

초장문 벤치마크 WikiCeleb100 및 FinQ100 구축

각각 3.9M 및 36M 토큰에 달하는 대규모 문서 세트를 대상으로 하는 새로운 평가 지표를 제안하여 기존 모델들이 처리하지 못하는 영역에서의 성능을 검증했다.

핵심 아이디어 이해하기

기존의 Transformer 아키텍처는 입력 시퀀스 길이 N에 대해 연산 복잡도가 제곱(N²)으로 증가하므로, 문서가 길어질수록 메모리와 비용이 기하급수적으로 늘어난다. 이를 해결하기 위해 문서를 작은 조각(Chunk)으로 나누어 처리하는 RAG 방식이 쓰이지만, 추출된 수많은 조각들을 다시 LLM 컨텍스트에 넣고 종합해야 하는 '병목 현상(Aggregation Bottleneck)'이 발생한다.

SLIDERS는 이 문제를 해결하기 위해 텍스트라는 비정형 상태를 유지하지 않고, LLM을 이용해 즉시 정형화된 데이터베이스 레코드로 변환한다. 이는 마치 수천 페이지의 보고서를 읽고 핵심 수치만 엑셀 표에 정리하는 것과 같다. 일단 데이터가 표 형태로 저장되면, 아무리 양이 많아도 SQL이라는 결정론적인 도구를 통해 합계, 평균, 비교 연산을 수행하므로 LLM의 기억력 한계나 환각 문제에서 자유로워진다.

결과적으로 수천만 토큰의 데이터도 데이터베이스의 인덱싱과 쿼리 최적화 기술을 빌려 처리하게 되며, LLM은 오직 질문을 SQL로 번역하고 최종 결과를 자연어로 요약하는 역할만 수행하게 되어 효율성과 정확도가 동시에 향상된다.

방법론

SLIDERS는 총 5단계의 파이프라인으로 구성된다. 첫째, 문맥 인식 청킹(Contextualized Chunking) 단계에서 문서의 메타데이터와 구조적 정보를 유지하며 독립적인 추출이 가능한 단위로 텍스트를 분할한다. 둘째, 스키마 유도(Schema Induction) 단계에서 질문의 의도에 맞는 최적의 관계형 테이블 구조를 LLM이 생성한다.

셋째, 구조화된 추출(Structured Extraction) 단계에서는 각 청크에서 스키마에 맞는 데이터를 추출한다. 이때 [청크 텍스트와 질문을 입력으로] → [관련성 게이트(Relevance Gate)를 통과한 데이터만 추출 연산을 수행해] → [JSON 형태의 레코드를 얻고] → [추출된 값마다 출처와 근거를 함께 저장하여 신뢰성을 확보한다].

넷째, 데이터 화해(Data Reconciliation) 단계에서는 중복 제거(Deduplication), 갈등 해결(Conflict Resolution), 통합(Consolidation) 작업을 수행한다. [추출된 로우(Row)들을 기본 키(Primary Key) 기준으로 그룹화하여] → [에이전트가 SQL을 생성 및 실행해] → [하나의 일관된 데이터베이스 상태를 구축한다]. 마지막으로 질의응답 단계에서 QA 에이전트가 최종 데이터베이스에 SQL 쿼리를 날려 정답을 합성한다.

주요 결과

SLIDERS는 360k 토큰 이하의 기존 롱 컨텍스트 벤치마크에서 GPT-4.1 대비 평균 6.6점 높은 성능을 기록했다. 특히 복잡한 집계가 필요한 Oolong 벤치마크에서는 기본 모델 대비 14% 이상의 성능 향상을 보였다.

3.9M 토큰 규모의 WikiCeleb100에서는 78.91%의 정확도를 기록하여 차순위 모델(59.80%)을 압도했다. 36M 토큰 규모의 FinQ100 실험에서는 RAG가 5%의 정확도에 그친 반면, SLIDERS는 55.22%를 달성했다. 비용 측면에서도 FinQ100 처리 시 GPT-4.1을 직접 사용할 경우 약 $1800가 예상되나, SLIDERS는$ 34.63로 약 50배 이상의 비용 효율성을 입증했다.

기술 상세

SLIDERS는 비정형 텍스트 추론을 기호적 실행(Symbolic Execution)으로 변환하는 아키텍처를 가진다. 핵심은 '데이터 화해 에이전트'로, 이는 단순한 중복 제거를 넘어 SQL의 창의적 활용을 통해 데이터의 일관성을 확보한다. 예를 들어, 동일한 기업의 매출 수치가 문서마다 다르게 기재된 경우, 에이전트는 '가장 상세한 내역이 포함된 레코드'를 선택하거나 '연간 보고서와 분기 보고서의 우선순위'를 판단하는 SQL 로직을 동적으로 생성한다.

구현 측면에서는 DuckDB를 백엔드로 사용하여 로컬 환경에서도 빠른 SQL 처리가 가능하도록 설계되었다. 또한 추출 과정에서 'Relevance Gate'를 도입하여 질문과 무관한 청크에서의 허위 추출(False Positive)을 0.4% 수준으로 억제했다. 이는 대규모 데이터 처리 시 데이터베이스가 오염되는 것을 방지하는 핵심적인 안전장치 역할을 한다.

한계점

SLIDERS는 정보를 관계형 모델로 구조화할 수 있다는 가정에 의존하므로, 매우 주관적이거나 추상적인 문학적 해석과 같이 관계형 모델링이 어려운 작업에는 적합하지 않을 수 있다. 또한 여러 단계의 LLM 호출이 필요하여 단일 호출 방식보다 지연 시간(Latency)이 길다는 단점이 있다.

실무 활용

수천 개의 기업 공시 자료나 방대한 의료 기록을 분석해야 하는 금융 및 의료 도메인에서 즉시 활용 가능하다. 특히 정답의 근거(Provenance)를 SQL 쿼리와 원문 텍스트로 추적할 수 있어 신뢰성이 중요한 업무에 적합하다.

수년치 10-Q 기업 보고서 수백 개를 통합하여 특정 재무 지표의 추이 분석
대규모 위키피디아 문서군에서 특정 인물들의 데뷔 시점 및 이력 비교 분석
수천 개의 연구 논문에서 공통된 실험 방법론 및 결과 수치 추출 및 요약

코드 공개 여부: 공개

코드 저장소 보기

키워드

SQL(구조화 질의 언어)RDB(관계형 데이터베이스)Long-Context(롱 컨텍스트)Data Reconciliation(데이터 화해)Provenance(출처 추적)

컨텍스트는 결코 충분히 길지 않다: 긴 문서 세트에 대한 확장 가능한 질의응답을 위한 구조화된 추론

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

왜 중요한가

핵심 기여

구조화된 추론(Structured Reasoning) 패러다임

데이터 화해(Data Reconciliation) 단계 도입

초장문 벤치마크 WikiCeleb100 및 FinQ100 구축

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

수년치 10-Q 기업 보고서 수백 개를 통합하여 특정 재무 지표의 추이 분석
대규모 위키피디아 문서군에서 특정 인물들의 데뷔 시점 및 이력 비교 분석
수천 개의 연구 논문에서 공통된 실험 방법론 및 결과 수치 추출 및 요약

코드 공개 여부: 공개

코드 저장소 보기

키워드

SQL(구조화 질의 언어)RDB(관계형 데이터베이스)Long-Context(롱 컨텍스트)Data Reconciliation(데이터 화해)Provenance(출처 추적)

컨텍스트는 결코 충분히 길지 않다: 긴 문서 세트에 대한 확장 가능한 질의응답을 위한 구조화된 추론

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

컨텍스트는 결코 충분히 길지 않다: 긴 문서 세트에 대한 확장 가능한 질의응답을 위한 구조화된 추론

핵심 요약

왜 중요한가

핵심 기여

핵심 아이디어 이해하기

방법론

주요 결과

기술 상세

한계점

실무 활용

키워드

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드