핵심 요약
기존 LLM은 긴 논문을 쓸 때 앞뒤 내용이 어긋나거나 그림 배치가 엉키는 문제가 있었다. 이 논문은 '계약(Contract)' 개념을 도입해 여러 AI 에이전트가 하나의 설계도를 공유하며 글을 쓰게 함으로써, 전문가 평가에서 기존 방식보다 훨씬 높은 일관성과 완성도를 보여주었다.
왜 중요한가
기존 LLM은 긴 논문을 쓸 때 앞뒤 내용이 어긋나거나 그림 배치가 엉키는 문제가 있었다. 이 논문은 '계약(Contract)' 개념을 도입해 여러 AI 에이전트가 하나의 설계도를 공유하며 글을 쓰게 함으로써, 전문가 평가에서 기존 방식보다 훨씬 높은 일관성과 완성도를 보여주었다.
핵심 기여
계약 기반 멀티 에이전트 프레임워크 Story2Proposal 제안
Architect, Writer, Refiner, Renderer 에이전트가 공유된 '시각적 계약(Visual Contract)' 상태를 중심으로 협업하여 논문의 구조적 일관성과 시각적 요소의 정렬을 유지함.
동적 생성-평가-적응(Generate-Evaluate-Adapt) 루프 도입
평가 에이전트가 생성 과정에서 실시간 피드백을 제공하고 이를 바탕으로 계약 상태를 업데이트하여, 논문 전체의 논리적 흐름과 데이터 충실도를 보장함.
전문가 평가를 통한 성능 입증
Jericho 연구 코퍼스 기반 실험에서 GPT, Claude 등 주요 LLM 백본을 사용했을 때 DirectChat 대비 평균 2.182점 높은 전문가 평가 점수를 획득함.
핵심 아이디어 이해하기
Transformer 기반 LLM은 다음 토큰을 예측하는 방식으로 글을 생성하기 때문에, 수천 단어에 달하는 논문 작성 시 초반의 연구 가설과 후반의 실험 결과가 어긋나는 '구조적 드리프트(Structural Drift)' 현상이 발생한다. 이는 모델이 전체 맥락을 하나의 고정된 설계도 없이 선형적으로만 처리하기 때문이다.
Story2Proposal은 이를 해결하기 위해 '시각적 계약(Visual Contract)'이라는 공유 메모리 시스템을 도입한다. 이는 논문의 목차, 포함될 그림/표의 목록, 각 섹션이 지켜야 할 제약 조건을 명시적으로 기록한 데이터 구조이다. Architect 에이전트가 먼저 이 계약을 정의하면, 나머지 에이전트들은 이 계약을 준수하며 각자의 역할을 수행한다.
특히 생성-평가-적응 루프를 통해 평가 에이전트가 중간 결과물을 검토하고, 모순이 발견되면 계약 자체를 수정하거나 보완 지시를 내린다. 이를 통해 단순한 텍스트 생성을 넘어, 논리적 정합성과 시각적 요소가 완벽히 결합된 구조화된 문서를 완성할 수 있다.
방법론
전체 시스템은 Architect, Writer, Refiner, Renderer라는 네 가지 전문 에이전트와 이들을 감시하는 Evaluation 에이전트로 구성된다. 모든 에이전트는 '공유 시각적 계약(C)'을 참조하며, 이 계약은 글로벌 시각적 레지스트리, 섹션별 의무 사항, 검증 규칙의 3개 레이어로 이루어진다.
Architect 에이전트는 입력된 연구 스토리(S)를 분석하여 섹션 구조 {si}를 정의하고 필요한 시각적 요소(V)를 등록한다. (B, C1) = Aarch(S, C0)를 정의한다. [연구 스토리 S와 초기 상태 C0를 입력으로] → [텍스트를 섹션별로 분해하고 시각 요소를 추출하는 연산을 수행해] → [청사진 B와 업데이트된 계약 C1을 얻고] → [논문의 전체 구조와 시각적 배치의 기준점이 된다.]
Writer 에이전트는 계약 조건 하에서 각 섹션의 초안(Di)을 작성하고, Refiner 에이전트는 섹션 간 용어 통일 및 논리적 흐름을 개선한다. Di = Aw(si, Ct)를 생성한다. [특정 섹션 si와 현재 계약 Ct를 입력으로] → [계약 조건을 준수하며 텍스트를 합성하는 연산을 수행해] → [섹션 초안 Di를 얻고] → [해당 섹션의 구체적인 서술 내용이 된다.]
Evaluation 에이전트(Ek)는 추론 품질, 데이터 충실도, 시각적 일관성을 실시간으로 평가하여 피드백(rk)을 생성한다. Ct+1 = Update(Ct, {rk})를 수행한다. [현재 계약 상태 Ct와 평가 피드백 {rk}를 입력으로] → [피드백 내용을 반영하여 계약 조건을 수정하는 연산을 수행해] → [새로운 계약 상태 Ct+1을 얻고] → [다음 생성 단계에서 에이전트들이 준수해야 할 정제된 가이드라인이 된다.]
주요 결과
Jericho 연구 코퍼스를 활용한 전문가 평가에서 Story2Proposal은 평균 6.145점을 기록하여, 단순 프롬프트 방식인 DirectChat(3.963점) 대비 약 55%의 성능 향상을 보였다. GPT-4, Claude, Gemini, Qwen 등 다양한 LLM 백본에서 일관되게 우수한 성능을 입증했다.
기존의 구조화된 생성 방식인 Fars(5.197점)와 비교했을 때도 5.705점(S2P 평균)으로 더 높은 점수를 얻었다. 특히 구조적 무결성(Structural Integrity)과 시각적 정렬(Visual Alignment) 항목에서 큰 개선이 확인되었으며, 이는 지속적인 피드백 루프가 효과적임을 시사한다.
정성적 분석 결과, Story2Proposal로 생성된 논문은 섹션 간 모순이 적고 실험 설명이 더 명확하며, 그림과 표가 텍스트 설명과 정확히 일치하는 위치에 배치되는 특성을 보였다.
기술 상세
시스템 아키텍처는 계약 중심의 멀티 에이전트 워크플로우를 기반으로 한다. 핵심은 '시각적 계약(Visual Contract)'으로, 이는 논문의 구조적/시각적 의무 사항을 명시적으로 표현하고 강제하는 상태 머신 역할을 한다.
수학적으로 생성 목적 함수는 각 평가 에이전트의 피드백 rk와 가중치 wk의 합인 R(M) = Σ wkrk를 최대화하는 방향으로 설정된다. [각 평가 에이전트의 피드백 점수 rk와 중요도 가중치 wk를 입력으로] → [가중치와 점수를 곱해 모두 합산하는 연산을 수행해] → [최종 평가 점수 R(M)을 얻고] → [이 숫자가 높을수록 논문의 전체적인 품질과 일관성이 우수함을 의미한다.]
기존 연구인 Fars가 정적인 템플릿을 사용하는 것과 달리, S2P는 동적인 업데이트 메커니즘(Ct+1 = Update(Ct, {rk}))을 사용하여 생성 과정 중에 발생하는 오류를 즉시 수정할 수 있는 적응형 에코시스템을 구축했다.
구현 측면에서 각 에이전트는 독립적인 LLM 인스턴스로 동작하며, 공유된 계약 상태를 통해 통신한다. Renderer 단계에서는 LaTeX 컴파일 가능 여부와 모든 시각적 요소의 1:1 매핑을 결정론적으로 검증하여 기술적 완성도를 높였다.
한계점
평가 에이전트가 미묘한 추론 결함이나 과학적으로 약한 논리를 식별하지 못할 경우 계약 업데이트가 트리거되지 않을 수 있다. 또한, 입력된 연구 스토리가 불완전할 경우 논리적 공백을 메우는 데 한계가 있다.
실무 활용
연구자가 초안 데이터를 입력하면 학술지 투고가 가능한 수준의 LaTeX 논문을 자동 생성하는 데 활용될 수 있다.
- 연구 노트를 바탕으로 한 학술 논문 초안 자동 생성
- 복잡한 기술 보고서의 구조적 일관성 검토 및 교정
- 그림과 표가 많은 대규모 기술 문서의 레이아웃 자동화
코드 공개 여부: 비공개
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.