지속적 경험 기반 실행을 통한 심층 표 연구 (Deep Tabular Research)

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

실무에서 마주하는 복잡하고 구조가 깨진 엑셀 데이터를 AI가 스스로 분석하고 시각화까지 수행하는 기술적 토대를 마련했습니다. 단순한 데이터 추출을 넘어 다단계 추론과 실행 경험을 통해 스스로 분석 전략을 수정하며 정확도를 높이는 에이전트 구조를 제시합니다.

왜 중요한가

핵심 기여

DTR(Deep Tabular Research) 작업 공식화

단순 질의응답을 넘어 비정형 표에 대한 장기적이고 복잡한 분석 작업을 Deep Tabular Research로 정의하고 이를 해결하기 위한 벤치마크를 구축함.

계층적 메타 그래프 기반 표 구조화

복잡한 헤더와 비정형 레이아웃을 가진 표를 그래프 구조로 변환하여 LLM이 표의 의미론적 관계를 정확히 파악하고 탐색할 수 있게 함.

기대치 기반 실행 경로 선택 정책

과거 실행 경험을 바탕으로 가장 유망한 분석 경로를 선택하는 전략적 계획 메커니즘을 도입하여 탐색 효율성과 분석 정확도를 동시에 개선함.

샴 구조 메모리를 통한 지속적 학습

실행 성공 및 실패 사례를 수치적 피드백과 텍스트 요약으로 저장하여, 모델이 실시간으로 분석 전략을 수정하고 성능을 고도화하도록 설계함.

핵심 아이디어 이해하기

기존 LLM은 표 데이터를 텍스트로 변환하여 처리하지만, 헤더가 여러 층이거나 셀이 병합된 복잡한 표에서는 구조를 오해하기 쉽다. 특히 여러 단계를 거쳐야 하는 분석 작업에서는 초기 단계의 사소한 데이터 추출 오류가 뒤로 갈수록 증폭되어 최종 결과가 완전히 틀어지는 한계가 존재한다.

DTR은 이를 해결하기 위해 표의 구조를 '그래프'로 먼저 파악하고, 분석 과정을 '의사 결정 과정'으로 취급한다. LLM이 바로 답을 내는 대신, 어떤 연산(필터링, 그룹화, 집계 등)을 어떤 순서로 수행할지 계획을 세우고 이를 코드로 실행하며 그 결과를 실시간으로 확인한다. 이는 마치 숙련된 분석가가 데이터와 상호작용하며 가설을 검증하고 분석 경로를 조정하는 과정과 유사하다.

실행 중 오류가 발생하거나 결과가 예상과 다르면, 메모리에 저장된 과거의 성공 및 실패 경험을 참고하여 계획을 즉시 수정한다. 이러한 폐쇄 루프(Closed-loop) 방식은 복잡한 표 구조에서도 논리적 일관성을 유지하며, 데이터의 양이 많아지거나 구조가 복잡해져도 안정적인 분석 결과를 도출할 수 있게 한다.

방법론

표 이해 및 구조화 모델링 단계이다. 원시 표 데이터에서 메타 정보를 추출하고 행과 열의 계층적 관계를 파악하여 계층적 메타 그래프 $G_T = (V_T, E_T)$ 를 생성한다. 이 그래프는 표의 각 요소 간 포함 관계를 명시적으로 인코딩하여 LLM이 복잡한 레이아웃을 논리적으로 탐색할 수 있는 기반이 된다.

쿼리 기반 연산 매핑 및 경로 계획 단계이다. 자연어 질문을 FILTER, GROUP, AGG 등 사전에 정의된 원자적 연산 시퀀스로 변환한다. 이때 기대치 점수 $E(\pi) = \hat{R}(\pi) + \alpha \cdot P(\pi) \sqrt{\frac{\log \sum N(\pi')}{1 + N(\pi)}}$ 를 계산한다. [과거 보상 $\hat{R}$ 과 구조적 타당성 $P$ 를 입력으로] → [UBC 기반 수식을 연산하여] → [최종 기대 점수를 얻고] → [이 값이 가장 높은 경로를 우선적으로 선택하여 실행한다].

샴 구조 메모리를 통한 실행 피드백 수집 및 갱신 단계이다. 실행 결과의 유효성( $f_{exec}$ ), 시간 효율성( $f_{time}$ ), 타입 일치성( $f_{type}$ )을 수집하여 보상 $r(\pi)$ 를 계산한다. [실행 신호들을 입력으로] → [함수 $\phi$ 를 통해 가중합 연산을 수행해] → [스칼라 보상 값을 얻고] → [이 값으로 해당 경로의 기대 수익 $\hat{R}$ 을 갱신하여 다음 계획에 반영한다].

주요 결과

DTR-Bench 실험 결과이다. DTR은 정확도, 분석 깊이, 실행 가능성 등 모든 지표에서 기존 SOTA 모델 및 에이전트 프레임워크를 능가했다. 특히 DeepSeek-V3 기반 DTR은 Win Rate 1.93, Score Rate 37.53을 기록하며 단순 LLM 대비 월등한 성능 향상을 보였다.

RealHitBench 벤치마크 성능이다. 사실 확인(Fact Checking), 수치 추론(Numerical Reasoning), 데이터 분석 등 5가지 작업 유형 모두에서 최고 성능을 달성했다. 특히 데이터 분석 작업에서는 LLM-EVAL 점수 70.90을 기록하며 GPT-4o(65.24)보다 뛰어난 분석 능력을 입증했다.

효율성 및 확장성 분석 결과이다. DTR은 평균 4.78회의 LLM 호출만으로도 복잡한 분석을 수행하며, 무분별한 반복 실행을 하는 CodeLoop(8.8회) 방식보다 훨씬 적은 비용으로 높은 정확도를 달성했다. 이는 전략적 계획과 실행의 분리가 효율적인 자원 사용으로 이어짐을 확인한 결과이다.

기술 상세

DTR 아키텍처는 거시적 계획(Macro Planning)과 미시적 실행(Micro Execution)을 분리한 폐쇄 루프 에이전트 구조를 채택했다. 이는 LLM이 코드 생성과 전략 수립을 동시에 수행할 때 발생하는 인지적 부하를 줄이고, 실행 결과에 기반한 유연한 전략 수정을 가능하게 한다.

표 구조 인코딩을 위해 관계형 트리플(table, has_column, child_header 등) 형식을 사용하여 계층적 관계를 LLM에 전달한다. 이는 단순 텍스트 직렬화보다 구조적 정보를 보존하는 데 유리하며, 복잡한 병합 셀이나 다중 헤더를 처리하는 핵심 기법이다.

경로 선택 알고리즘은 강화학습의 Upper Confidence Bound(UCB) 개념을 차용하여 설계되었다. 검증된 경로를 활용(Exploitation)하면서도 새로운 경로를 탐색(Exploration)하도록 유도하여, 데이터 구조의 불확실성 속에서도 최적의 분석 경로를 찾아낸다.

실행 메모리는 매개변수화된 수치 데이터와 추상화된 텍스트 경험을 동시에 관리하는 샴(Siamese) 구조를 가진다. 수치 데이터는 경로의 기대 보상을 갱신하는 데 사용되고, 텍스트 경험은 LLM이 다음 단계에서 구체적인 오류 원인을 파악하고 수정하는 데 활용된다.

실무 활용

복잡한 비즈니스 리포트 작성이나 대규모 엑셀 데이터 분석 자동화에 즉시 적용 가능한 프레임워크로, 데이터 과학자의 반복적인 분석 업무를 보조할 수 있습니다.

기업 재무제표의 다차원 비교 분석 및 자동 요약 리포트 생성
대규모 설문 조사 데이터의 통계적 유의성 검정 및 시각화 자동화
비정형 스프레드시트 기반의 데이터 정제 및 대시보드 구성 자동화
복잡한 계층 구조를 가진 공공 데이터의 자동 추출 및 상관관계 분석

코드 공개 여부: 비공개

키워드

Deep Tabular Research(심층 표 연구)Agentic Framework(에이전트 프레임워크)Hierarchical Meta Graph(계층적 메타 그래프)Long-horizon Reasoning(장기 추론)Siamese Memory(샴 메모리)