핵심 요약
기존 언어 모델은 시계열 데이터를 단순한 텍스트 배열로 처리하여 미세한 수치 변화나 패턴을 파악하는 데 한계가 있었다. 이 논문은 시계열 추론을 4단계 인지 계층으로 정의하고 시각적 도표와 수치 테이블을 결합한 이중 입력 방식을 통해 복잡한 시계열 데이터에 대한 추론 정확도를 획기적으로 높였다.
왜 중요한가
기존 언어 모델은 시계열 데이터를 단순한 텍스트 배열로 처리하여 미세한 수치 변화나 패턴을 파악하는 데 한계가 있었다. 이 논문은 시계열 추론을 4단계 인지 계층으로 정의하고 시각적 도표와 수치 테이블을 결합한 이중 입력 방식을 통해 복잡한 시계열 데이터에 대한 추론 정확도를 획기적으로 높였다.
핵심 기여
4단계 시계열 추론 Taxonomy 정의
시계열 추론을 단순 수치 읽기(L1)부터 패턴 인식(L2), 의미론적 추론(L3), 예측 추론(L4)까지 4단계의 인지적 복잡성으로 분류한 체계를 수립했다.
HITSR 데이터셋 구축
검증된 Chain-of-Thought(CoT) 경로를 포함하는 83,000개의 샘플로 구성된 계층적 시계열 추론 데이터셋을 공개하여 모델의 단계별 학습을 지원한다.
LLATISA 모델 아키텍처 제안
시계열의 전체적인 추세를 파악하는 시각적 플롯과 정밀한 수치 확인을 위한 인덱스-값 테이블을 동시에 입력받는 이중 뷰 프레임워크를 설계했다.
3단계 커리큘럼 파인튜닝 전략
기초적인 수치 읽기부터 복잡한 의미 분석까지 단계적으로 학습 강도를 높이는 커리큘럼 학습법을 적용하여 모델의 일반화 성능을 극대화했다.
관련 Figure

시계열 추론을 L1(수치 읽기)부터 L4(예측 추론)까지 계층화하여 정의하고 있으며, 각 단계별로 필요한 인지적 능력과 데이터셋의 예시를 시각화하여 본 논문의 핵심 프레임워크를 설명한다.
4단계 시계열 추론 Taxonomy와 HITSR 데이터셋의 구조를 보여주는 다이어그램이다.
핵심 아이디어 이해하기
기존의 시계열 처리 방식은 데이터를 텍스트 토큰으로 직렬화하거나 단순한 이미지로 변환하는 데 그쳤다. 하지만 인간이 시계열 데이터를 분석할 때 전체적인 그래프의 흐름(Perception)을 먼저 보고 필요한 지점의 정확한 수치(Grounding)를 확인한다는 점에 착안했다. LLATISA는 이러한 인간의 인지 과정을 모사하기 위해 시각적 정보와 수치적 정보를 결합한다.
모델은 Transformer 기반의 Vision-Language Model을 뼈대로 사용하며, 시계열 데이터를 두 가지 형태의 이미지로 변환하여 입력받는다. 하나는 전체적인 추세를 보여주는 선 그래프이고, 다른 하나는 각 시점의 정확한 값을 담은 고밀도 수치 그리드이다. 이를 통해 모델은 그래프에서 '급격한 하락'이라는 패턴을 인식함과 동시에 수치 테이블에서 해당 지점의 정확한 하락 폭을 계산할 수 있게 된다.
이러한 이중 입력 방식은 모델이 수치적 증거에 기반하여 논리적으로 사고하도록 유도한다. 결과적으로 단순한 패턴 매칭을 넘어 데이터 이면에 숨겨진 의미를 해석하고 미래를 예측하는 고차원적인 추론 능력을 갖추게 된다.
방법론
LLATISA는 Qwen3-VL-8B-Instruct를 백본으로 사용하는 VLM 기반 시계열 추론 모델이다. 핵심은 Dual-View Input 구조로, 시계열 데이터를 시각적 플롯(Visual Plot)과 구조화된 수치 테이블(Numerical Table) 이미지로 동시에 렌더링하여 입력한다. [시계열 데이터 → 이미지 렌더링 → VLM 인코더 → 멀티모달 추론] 순으로 연산이 진행되며, 이는 모델이 거시적 패턴과 미세 수치를 동시에 참조할 수 있게 한다.
학습은 3단계 커리큘럼 파인튜닝(Curriculum Fine-tuning)을 따른다. 1단계에서는 수치 읽기(L1)를 통해 기초적인 데이터 추출 능력을 배양하고, 2단계에서는 패턴 인식(L2)을 학습하며, 3단계에서는 도메인 지식을 결합한 의미론적 추론(L3)을 수행한다. 각 단계는 이전 단계의 인지적 능력을 바탕으로 쌓아 올려지며, 특히 L2와 L3 단계에서는 GPT-5를 활용해 생성하고 인간이 검증한 고품질의 Chain-of-Thought(CoT) 데이터를 학습에 활용한다.
관련 Figure

시각적 플롯과 수치 테이블을 결합한 이중 입력 방식과 단계별로 난이도를 높여가는 커리큘럼 학습 전략이 모델 성능 향상의 핵심임을 보여준다.
LLATISA의 데이터 파이프라인과 모델 프레임워크, 3단계 커리큘럼 학습 과정을 요약한 그림이다.
주요 결과
LLATISA는 다양한 OOD(Out-of-Distribution) 벤치마크에서 기존 SOTA 모델들을 압도하는 성능을 보였다. 특히 수치 읽기(L1) 작업에서 GPT-4o가 47.4%의 정확도를 기록한 반면, LLATISA는 86.8%를 달성하여 정밀한 수치 접지(Grounding) 능력을 입증했다. 패턴 인식(L2)의 글로벌 패턴 분석에서도 97.5%의 높은 정확도를 기록했다.
의미론적 추론(L3) 단계인 ECG 해석 실험에서도 LLATISA는 전문 모델인 GEM(LLaVA 기반) 대비 진단 정확도와 증거 기반 추론 능력이 크게 향상되었다. 특히 CoT(Chain-of-Thought)를 포함하여 학습했을 때, 포함하지 않은 경우보다 OOD L3 작업 정확도가 17.91%p 상승하는 결과를 보여 논리적 추론 경로 학습의 중요성을 확인했다.
기술 상세
LLATISA의 아키텍처는 시계열 데이터를 텍스트가 아닌 '이미지'로 처리함으로써 VLM의 강력한 시각적 추론 능력을 시계열 도메인으로 전이한다. 수치 테이블을 이미지화할 때는 'High-Density Numeric Grid' 형식을 사용하여 제한된 토큰 예산 내에서 최대한 많은 수치 정보를 모델에 전달한다. 이는 텍스트 직렬화 시 발생하는 컨텍스트 길이 제한 문제를 효과적으로 해결한다.
학습 과정에서 사용된 HITSR 데이터셋은 규칙 기반 생성과 LLM 보조 주석 생성을 혼합하여 구축되었다. 특히 L3 데이터는 실제 세계의 시계열 데이터(교통량, 전력 소비 등)를 기반으로 시나리오를 구성하고, GPT-5가 생성한 추론 경로를 인간 전문가가 교차 검증하여 데이터의 신뢰성을 확보했다. 커리큘럼 학습 시 각 단계의 데이터 비중을 조절하여 모델이 하위 단계의 능력을 잊지 않으면서 상위 단계의 지식을 습득하도록 설계되었다.
한계점
본 연구는 주로 지도 학습 기반의 커리큘럼 파인튜닝에 집중하고 있으며, 강화 학습(RL)을 통한 추론 능력 고도화는 향후 과제로 남겨두고 있다. 또한 모델 초기화 시의 콜드 스타트 문제와 복잡한 보상 설계의 어려움이 한계점으로 언급되었다.
실무 활용
LLATISA는 정밀한 수치 분석과 맥락 이해가 동시에 필요한 전문 도메인의 시계열 데이터 분석에 즉시 활용 가능하다.
- 의료 분야의 심전도(ECG) 자동 판독 및 진단 근거 생성
- 금융 시장의 복잡한 지표 변화에 따른 시나리오 기반 리스크 분석
- 산업 현장의 센서 데이터를 활용한 이상 징후 탐지 및 원인 추론
- 기상 데이터 분석을 통한 국지적 기후 변화 패턴 해석
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.