T2S-Bench 및 Structure-of-Thought: 종합적인 텍스트-구조 추론 벤치마킹 및 프롬프팅

왜 중요한가

LLM이 복잡한 긴 문서를 읽을 때 사람처럼 핵심 요점을 먼저 정리하고 관계도를 그리도록 유도하여 추론 정확도를 높이는 기술이다. 텍스트를 구조화된 데이터로 변환하는 능력을 정밀하게 측정할 수 있는 최초의 벤치마크를 제공하여 더 신뢰할 수 있는 AI 에이전트 개발의 토대를 마련했다.

핵심 기여

Structure of Thought (SoT) 프롬프팅 기법 제안

최종 답변 생성 전 텍스트를 핵심 노드와 링크로 구성된 그래프 구조로 먼저 변환하도록 유도하는 범용 프롬프팅 전략이다. 8개 주요 텍스트 처리 작업에서 일관된 성능 향상을 입증했다.

최초의 종합 텍스트-구조 변환 벤치마크 T2S-Bench 구축

6개 과학 분야와 32개 구조 유형을 아우르는 1.8K개의 고품질 샘플을 포함한다. 학술 논문의 다이어그램을 기반으로 구축되어 구조적 정확성과 논리적 엄밀성을 확보했다.

45개 주요 언어 모델의 구조화 능력 전수 평가

최신 모델들도 복잡한 구조 추출 작업에서 노드 식별 정확도가 60% 미만에 머물러 있음을 확인하여 기술적 개선의 필요성을 수치로 증명했다.

구조화 학습의 전이 효과 입증

T2S-Bench로 파인튜닝된 모델이 학습하지 않은 외부 텍스트 처리 작업(LongBench, SCROLLS)에서도 최대 8.6%의 성능 향상을 보임을 확인했다.

핵심 아이디어 이해하기

Transformer 기반 LLM은 텍스트를 순차적으로 생성하므로 복잡한 논리 관계를 한 번에 파악하는 데 한계가 있다. 특히 긴 문맥에서 정보를 찾고(Find), 융합하며(Fuse), 최종 형태를 만드는(Form) 과정에서 중간 단계의 논리적 지지대가 없으면 환각 현상이나 추론 오류가 발생하기 쉽다. 이는 Attention 메커니즘이 모든 토큰에 분산되어 핵심적인 관계에 집중하지 못하기 때문이다.

이 논문은 사람이 복잡한 글을 읽을 때 밑줄을 긋고 관계도를 그리는 방식에서 해결책을 찾았다. Structure of Thought(SoT)는 모델이 답변을 내놓기 전, 입력 텍스트에서 핵심 개체(Node)를 식별하고 이들 간의 인과나 종속 관계(Link)를 JSON 형태의 그래프로 먼저 생성하게 강제한다. 이 과정은 모델의 사고 과정을 명시적인 구조에 고정(Anchor)하는 역할을 한다.

결과적으로 이러한 구조화 단계는 모델이 최종 답변을 생성할 때 참조할 수 있는 정제된 '지식 지도'를 제공한다. 이는 단순한 텍스트 나열보다 훨씬 강력한 중간 표현(Intermediate Representation)으로 작용하여, 다단계 추론의 정확도를 높이고 모델의 판단 근거를 사람이 검증 가능하게 만든다.

방법론

Structure of Thought(SoT)는 2단계 워크플로우를 따른다. 먼저 입력 텍스트에서 핵심 노드와 링크를 추출하여 JSON 형식의 [Structure]를 생성한 후, 이를 바탕으로 최종 [Answer]를 도출한다. 이는 Chain-of-Thought(CoT)가 자유 형식의 텍스트로 사고 과정을 나열하는 것과 달리, 엄격한 그래프 구조를 중간 표현으로 사용한다는 차이점이 있다.

T2S-Bench 데이터셋 구축은 4단계 자동화 파이프라인과 전문가 검수를 거친다. (1) GPT-5.2를 활용해 구조적 다이어그램이 포함된 논문을 검색하고, (2) pdffigures2로 이미지를 추출하며, (3) Gemini-2.5-Pro로 다이어그램의 유효성을 JSON 구조로 변환하여 검증한다. 마지막으로 (4) GPT-o3와 Gemini-2.5-Pro를 교차 활용해 텍스트와 구조 간의 일관성을 확인한다.

평가 지표로는 다단계 추론 성능을 측정하는 Exact Match(EM)와 F1 스코어를 사용하며, 구조 추출 성능 측정을 위해 Node F1과 Link F1을 도입했다. Node F1 계산 시 예측된 노드와 정답 노드 간의 시맨틱 유사도를 측정한다. [예측 노드 집합과 정답 노드 집합을 입력으로] -> [코사인 유사도 기반 매칭 연산을 수행해] -> [0~1 사이의 점수를 얻고] -> [이 값이 높을수록 핵심 개념 식별이 정확함을 의미한다.]

주요 결과

45개 모델 평가 결과, Gemini-2.5-Pro가 EM 81.40%, F1 91.56%로 가장 우수한 성능을 보였다. 하지만 모든 모델에서 구조 추출(Structure Score)이 병목 구간임이 확인되었다. 가장 뛰어난 Gemini-2.5-Pro조차 노드 추출 정확도는 58.09%에 불과했으며, 대다수 오픈소스 모델은 35~50% 수준에 머물렀다.

SoT 프롬프팅의 효과는 뚜렷했다. Qwen2.5-7B-Instruct 모델에 SoT를 적용했을 때 8개 텍스트 처리 작업에서 평균 5.7%의 성능 향상이 나타났으며, 특히 2WikiMultiHopQA와 MuSiQue 같은 복합 추론 작업에서는 10% 이상의 향상을 기록했다. 이는 CoT보다 일반적인 텍스트 처리 작업에서 더 일관된 성능을 보였다.

T2S-Bench를 활용한 파인튜닝 실험에서는 성능 향상 폭이 더 커졌다. Qwen2.5-7B를 T2S-Train-1.2k 데이터로 학습시킨 결과, LongBench와 SCROLLS 벤치마크를 포함한 다양한 다운스트림 작업에서 평균 8.6%의 성능 향상을 달성했다. 이는 구조화 능력이 모델의 전반적인 문맥 이해 및 추론 능력을 강화함을 시사한다.

실무 활용

복잡한 기술 문서, 법률 계약서, 의료 기록 등을 분석하고 요약해야 하는 AI 에이전트 시스템의 정확도를 높이는 데 즉시 활용 가능하다. 특히 RAG 시스템에서 검색된 다수의 문서 간 관계를 파악해야 할 때 유용하다.

과학 논문 및 기술 백서의 자동 관계 추출 및 지식 그래프 생성
복잡한 시스템 아키텍처 문서의 논리적 결함 및 병목 지점 자동 진단
다단계 추론이 필요한 금융/법률 문서 기반 질의응답 시스템의 정확도 개선
LLM의 사고 과정을 시각화하여 사용자가 추론 근거를 검토할 수 있는 감사 도구

기술 상세

T2S-Bench는 텍스트-구조 변환 능력을 평가하기 위해 4가지 핵심 추론 카테고리를 정의한다. Fault Localization(결함 위치 파악), Functional Mapping(기능적 매핑), Boundary Testing(경계 조건 테스트), Counterfactual Reasoning(가상 상황 추론)이다. 각 카테고리는 32개의 논리 템플릿을 기반으로 설계되어 모델의 구조적 사고력을 다각도로 검증한다.

SoT 아키텍처는 텍스트 구조를 '노드(Node)'와 '링크(Link)'라는 원자적 단위로 분해한다. 이는 비정형 텍스트를 정형화된 중간 표현(IR)으로 변환함으로써, 모델이 긴 시퀀스 내에서 정보의 우선순위를 결정하고 논리적 연결 고리를 명시적으로 유지하도록 돕는다. 실험 데이터에 따르면 이러한 구조화 능력은 모델의 파라미터 크기와 반드시 비례하지 않으며, 데이터의 품질과 구조적 학습 전략이 더 결정적인 요인으로 작용한다.

구현 측면에서 T2S-Bench는 모델이 생성한 구조의 유효성을 평가하기 위해 '부분 구조 제약 평가(Partial Structure-Constrained Evaluation)' 방식을 사용한다. 이는 노드 추출과 링크 추출을 분리하여 평가함으로써, 단일 텍스트에 대해 여러 유효한 구조가 존재할 수 있는 '일대다 매핑' 문제를 해결하고 공정한 벤치마킹을 가능하게 한다.

한계점

노드 추출(Node Similarity) 성능이 링크 추출에 비해 현저히 낮게 나타났다. 이는 모델이 텍스트 내에서 정확한 개체를 식별하고 상호 참조(Co-reference)를 해결하는 데 여전히 어려움을 겪고 있음을 의미하며, 향후 연구에서 해결해야 할 주요 병목 지점이다.

키워드

Structure of Thought(사고 구조화)T2S-Bench(텍스트-구조 벤치마크)Multi-hop Reasoning(다단계 추론)Intermediate Representation(중간 표현)Prompting(프롬프팅)LLM(대형 언어 모델)