핵심 요약
현대 LLM 학습 데이터는 기존 데이터셋을 재가공하거나 합성하여 만들어지지만 그 계보가 불투명해 데이터 중복과 평가 오염 문제가 심각하다. 이 논문은 멀티 에이전트를 활용해 데이터셋 간의 상속 관계를 자동으로 시각화하고, 이를 통해 데이터 다양성을 극대화하는 새로운 구축 방법론을 제시한다.
왜 중요한가
현대 LLM 학습 데이터는 기존 데이터셋을 재가공하거나 합성하여 만들어지지만 그 계보가 불투명해 데이터 중복과 평가 오염 문제가 심각하다. 이 논문은 멀티 에이전트를 활용해 데이터셋 간의 상속 관계를 자동으로 시각화하고, 이를 통해 데이터 다양성을 극대화하는 새로운 구축 방법론을 제시한다.
핵심 기여
자동화된 데이터 계보 재구축 프레임워크
멀티 에이전트 협업 시스템을 통해 비정형 문서와 코드 저장소에서 데이터셋 간의 상속 관계를 추출하고 430개의 노드와 971개의 엣지로 구성된 진화 그래프를 생성했다.
도메인별 데이터 진화 패턴 규명
일반 도메인 데이터셋은 얕고 넓게 확장되는 수평적 집계 패턴을 보이는 반면, 수학 데이터셋은 핵심 앵커 소스를 반복적으로 정제하는 수직적 심화 구조를 가짐을 확인했다.
시스템적 데이터 결함 진단 및 정량화
데이터셋 간의 암시적 교차로 인해 발생하는 구조적 중복(최대 46.48%)과 상위 소스에서 하위로 전파되는 벤치마크 오염 경로를 정밀하게 추적했다.
계보 기반 다양성 중심 데이터 큐레이션
계보 그래프의 루트 소스에서 직접 샘플링하는 Provenance-based Sampling 전략을 통해 기존 대규모 데이터셋보다 적은 양으로도 더 높은 의미적 다양성을 확보했다.
관련 Figure

OpenHermes-2.5가 MATH, SlimOrca, Alpaca 등 수많은 상위 데이터셋으로부터 어떻게 정보를 상속받는지 보여준다. 노란색 노드는 리프 노드, 초록색 노드는 내부 노드를 의미하며 복잡하게 얽힌 현대 데이터 생태계를 직관적으로 나타낸다.
OpenHermes-2.5 데이터셋을 중심으로 한 깊이 3의 데이터 계보 그래프 시각화 예시
핵심 아이디어 이해하기
LLM의 성능은 포스트 트레이닝 데이터에 크게 의존하지만, 대부분의 데이터셋은 완전히 새로 만들어지는 것이 아니라 기존 데이터를 Embedding 공간에서 변형하거나 LLM으로 다시 쓰는 과정을 거친다. 이 과정에서 데이터셋들은 서로 얽힌 계보를 형성하게 되는데, 이를 무시하고 데이터를 단순히 합치면 동일한 정보가 반복 학습되어 모델의 유효 용량이 줄어들고 특정 벤치마크에 과적합되는 문제가 발생한다.
이 논문은 데이터셋을 고립된 개체가 아닌 진화하는 그래프의 노드로 정의한다. Sourcing Agent가 문서에서 출처를 찾고, Tracing Agent가 관계를 추출하며, Aggregation Agent가 이를 통합하여 전체 생태계의 지도를 그린다. 이는 마치 생물의 계통도를 그리듯 데이터의 유전적 흐름을 파악하는 원리이다.
결과적으로 데이터의 '뿌리'인 루트 노드를 식별함으로써, 파생 과정에서 발생하는 노이즈와 중복을 제거할 수 있다. 수치적으로는 1.2M 규모의 거대 데이터셋보다 계보를 고려해 정교하게 샘플링한 570K 데이터셋이 더 높은 Vendi Score(다양성 지표)를 기록하며, 데이터의 양보다 구조적 투명성이 성능에 더 중요함을 입증한다.
방법론
멀티 에이전트 프레임워크는 4단계 파이프라인으로 구성된다. 첫째, Candidate Validation 단계에서 Hugging Face API와 논문 출판일을 대조하여 데이터셋의 유효성을 검증하고 2020년 이후 릴리스된 데이터로 대상을 한정한다. 둘째, Multi-source Information Retrieval 단계에서 Sourcing Agent가 README, GitHub, arXiv 논문을 수집하고 노이즈를 제거하여 통합 리소스 컨텍스트를 구축한다.
셋째, Semantic Source Inference 단계에서 Tracing Agent가 컨텍스트를 분석하여 실제 소스 데이터셋을 식별한다. 이때 [텍스트 증거 입력 → LLM 추론 → JSON 형태의 <소스, 관계, 신뢰도, 근거> 출력] 과정을 거쳐 데이터 간의 상속 관계를 정형화한다. 넷째, Aggregation 및 Resolution 단계에서 별칭을 표준 ID로 변환하고 시간 순서가 맞지 않는 관계를 필터링하여 최종 계보 그래프를 완성한다.
그래프 구축 후에는 Depth-First Search(DFS)를 통해 루트 노드(상위 소스가 없는 노드)를 탐색한다. 데이터 큐레이션 시에는 [루트 노드 선택 → 도메인 메타데이터 및 Out-degree 기반 우선순위 지정 → MinHash 중복 제거 → 최종 데이터셋 생성] 알고리즘을 적용하여 의미적 다양성을 극대화한다.
관련 Figure

후보 검증, 다중 소스 정보 검색, 의미적 소스 추론, 그래프 확장 및 해상도의 4단계 파이프라인을 상세히 설명한다. 각 단계에서 Sourcing, Extracting, Tracing, Aggregation 에이전트가 협업하여 비정형 데이터를 정형화된 그래프로 변환하는 과정을 보여준다.
멀티 에이전트 기반의 데이터 계보 재구축 프레임워크 전체 아키텍처
주요 결과
83개의 핵심 데이터셋에서 시작하여 총 430개의 고유 데이터셋과 971개의 상속 관계를 포함하는 거대 그래프를 구축했다. 분석 결과, 일반 도메인 데이터셋은 평균 깊이 1.05의 얕은 구조를 보였으나, 수학 도메인은 평균 깊이 2.92로 매우 깊은 수직적 정제 과정을 거치는 것으로 나타났다. 특히 open-instruct-v1 데이터셋은 상위 소스를 중복 포함하여 46.48%의 심각한 구조적 중복률을 보였다.
벤치마크 오염 분석에서는 19개 데이터셋에서 광범위한 유출이 확인되었다. Caco-1.3M 데이터셋은 명시적으로 포함하지 않았음에도 상위 소스를 통해 Omni-Math 샘플의 37.95%를 암시적으로 상속받고 있었다. 제안된 계보 기반 샘플링으로 구축된 570K 규모의 데이터셋은 Vendi Score 452.44를 기록하여, 1.2M 규모의 MegaScience(373.78)나 OpenThoughts3(133.26)보다 훨씬 높은 다양성을 입증했다.
관련 Figure

일반 도메인은 2023년 이후 포화 상태에 도달하여 새로운 리프 노드 유입이 급감한 반면, 수학과 과학 도메인은 내부 노드가 급증하며 심화 학습으로의 전환이 일어나고 있음을 보여준다. 이는 커뮤니티의 관심사가 단순 텍스트 수집에서 전문 추론 능력 강화로 이동했음을 증명한다.
도메인별(수학, 코드, 일반, 과학) 데이터 계보의 연도별 노드 수 변화 그래프

Skywork-OR1-RL 데이터셋이 Omni-Math 벤치마크의 96.80%를 포함하고 있는 등 심각한 오염 실태를 수치로 보여준다. 계보 분석을 통해 직접 포함하지 않은 데이터셋(Caco-1.3M 등)도 상위 소스를 통해 간접적으로 오염되었음을 시각화하여 경고한다.
주요 데이터셋들의 벤치마크(Omni-Math, SciBench, TheoremQA) 오염 비율 분석 차트
기술 상세
본 연구는 데이터셋 간의 관계를 유향 그래프(Directed Graph) G=(V, E)로 모델링하며, 노드는 내부 노드(Internal Node)와 리프 노드(Leaf Node)로 구분된다. 아키텍처는 LangChain을 기반으로 오케스트레이션되며, 고성능 추론을 위해 GPT-5.1과 Gemini 2.5 Flash를 에이전트 엔진으로 사용한다. 특히 환각(Hallucination) 방지를 위해 신뢰도 기반의 전문가 검증 프로토콜을 도입하여 저신뢰도 추출 결과는 수동 검토로 라우팅한다.
데이터 다양성 측정에는 Vendi Score를 사용하며, 이는 커널 행렬 K의 정규화된 고윳값 λ에 대해 exp(-Σ λ log λ)를 계산하여 데이터의 유효 클러스터 수를 산출하는 방식이다. 또한 고차원 임베딩 공간에서의 기하학적 분산을 측정하기 위해 Centroid Distance를 병행 사용한다. 구현 상세에서는 Q-matching과 MinHash(128 hash permutations, threshold 0.7)를 결합한 2단계 중복 제거 공정을 통해 데이터의 순도를 높였다.
한계점
LLM을 기반으로 계보를 추출하므로 모델 고유의 환각 위험이 존재하며, 이를 보완하기 위해 저신뢰도 데이터에 대한 인간의 검증이 필수적이다. 또한, 데이터 제작자가 기술 문서에서 상위 소스를 의도적으로 숨기거나 보고하지 않을 경우 문서 기반의 계보 재구축 시스템으로는 이를 복구할 수 없다는 한계가 있다.
실무 활용
LLM 학습을 위한 고품질 데이터 큐레이션 및 평가 오염 방지에 즉시 적용 가능한 프레임워크와 데이터셋을 제공한다.
- 데이터셋 구축 시 상위 소스 중복을 사전에 차단하여 학습 효율성 및 다양성 확보
- 모델 평가 전 학습 데이터 계보를 추적하여 벤치마크 오염 여부를 자동으로 감사
- 특정 도메인(수학, 코드 등)의 데이터 진화 경로를 분석하여 효과적인 합성 데이터 생성 전략 수립
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.