대형 언어 모델의 시간 추론을 제어하는 핵심 요소: 토큰화인가, 시간의 표현인가?

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

LLM이 날짜 계산이나 시간 관계 파악에 어려움을 겪는 근본 원인을 다국어 관점에서 분석했다. 언어의 자원 수준에 따라 성능 저하의 원인이 입력 단계의 토큰 쪼개짐인지 아니면 내부의 추상적 표현 능력인지가 달라짐을 밝혀 모델 개선의 방향성을 제시한다.

왜 중요한가

핵심 기여

MULTITEMPBENCH 구축

5개 언어와 3개 달력 시스템(그레고리력, 이슬람력, 음력)을 아우르는 15,000개의 다국어 시간 추론 벤치마크를 제작했다.

mDFR 지표 제안

인간의 판단 기준을 반영하여 날짜 문자열의 토큰화 품질을 측정하는 다국어 날짜 분절 비율(mDFR) 지표를 도입했다.

언어별 병목 현상 규명

저자원 언어에서는 토큰 분절이, 고자원 언어에서는 내부 임베딩의 시간적 선형성(Temporal Linearity)이 추론 성능의 핵심 변수임을 입증했다.

기하학적 프로빙 분석

모델 내부 레이어에서 시간이 어떻게 선형적인 축으로 구조화되는지 시각화하고 이것이 실제 추론 정확도와 직결됨을 확인했다.

핵심 아이디어 이해하기

LLM은 텍스트를 토큰 단위로 처리하는데 날짜가 무분별하게 쪼개지면 모델은 숫자의 자릿수나 의미적 경계를 잃어버린다. 이는 마치 단어를 철자 단위로 쪼개서 읽을 때 문맥 파악이 힘들어지는 것과 유사한 한계를 만든다. 본 논문은 이 문제를 해결하기 위해 입력의 가독성인 토큰화와 내부의 논리적 구조인 표현을 분리하여 분석한다. 특히 임베딩 공간에서 연도나 날짜가 일직선상의 순서대로 배치되는 시간적 선형성 개념을 도입하여 모델이 시간을 단순한 텍스트가 아닌 연속적인 수치 개념으로 이해하는지 측정한다. 분석 결과 영어와 같은 고자원 언어는 토큰이 다소 쪼개지더라도 내부 레이어를 거치며 이를 다시 결합해 선형적인 시간 축을 형성하지만 하우사어 같은 저자원 언어는 입력 단계의 심한 분절로 인해 내부에서 논리적인 시간 구조를 형성하는 데 실패함이 확인됐다.

방법론

MULTITEMPBENCH는 750개의 핵심 질문을 기반으로 5개 언어와 다양한 날짜 형식으로 확장하여 구축됐다. 각 질문은 날짜 산술, 시간대 변환, 시간 관계 추출의 세 가지 태스크로 구성된다. 날짜 분절도 측정을 위해 mDFR을 정의했다. [날짜 문자열의 토큰화 결과와 의미적 기준점을 입력으로] → [분절 개수, 구분자 손실, 토큰 팽창률 등을 가중 합산하여] → [0에서 1 사이의 점수를 얻고] → [이 값이 높을수록 토큰화 품질이 낮아 추론에 방해가 됨을 의미한다]. 내부 표현 분석을 위해 기하학적 프로빙을 사용한다. [연도별 평균 임베딩 벡터를 입력으로] → [실제 연도 값을 타겟으로 하는 선형 회귀의 결정계수(R²)를 계산하여] → [0에서 1 사이의 선형성 점수를 얻고] → [이 값이 1에 가까울수록 모델이 시간의 흐름을 내부적으로 잘 구조화하고 있음을 나타낸다].

주요 결과

20개의 LLM을 평가한 결과 GPT-4o가 평균 62.7%로 가장 높은 성능을 보였으며 오픈 모델 중에서는 Gemma 3 4B가 59.2%로 Llama 3.1 8B를 앞서는 효율성을 보였다. 저자원 언어인 하우사어와 아랍어에서는 mDFR과 정확도 사이에 매우 강한 음의 상관관계(r = -0.97, -0.89)가 나타나 토큰화 품질이 성능의 절대적인 병목임이 확인됐다. 반면 영어(r = 0.77)와 중국어(r = 0.75) 등 고자원 언어에서는 토큰 분절보다 내부 임베딩의 시간적 선형성이 성능과 더 밀접하게 연관되어 있었다. 이는 고자원 언어 모델이 입력 단계의 불완전한 토큰화를 내부 연산을 통해 보상할 수 있음을 시사한다.

기술 상세

mDFR 지표는 의미적 루트의 분할, 구분자 손실, 토큰 수 팽창, 구조적 발산의 네 가지 요소를 포함한다. 구조적 발산은 모델의 토큰 분포와 이상적인 의미 단위 간의 코사인 거리를 통해 계산된다. 시간적 선형성 측정 시 특정 연도에 대해 5개의 서로 다른 날짜 샘플을 추출하여 평균 임베딩을 구함으로써 특정 월이나 일에 편향되지 않은 견고한 연도 표현을 추출했다. 교차 혼합 효과 회귀 분석을 통해 언어 자원 수준에 따라 성능 결정 요인이 전환되는 병목 현상의 이동을 통계적으로 입증했다. 이는 저자원 언어는 입력 제한적(Input-limited)인 반면 고자원 언어는 기하학 제한적(Geometry-limited)인 특성을 가짐을 보여준다.

한계점

5개 언어와 3개 태스크군으로 제한되어 있어 모든 다국어 시간 현상을 대변하지 못하며 저자원 언어 샘플이 아랍어와 하우사어 두 개뿐이라 일반화에 한계가 있다. 또한 제로샷 설정에서의 평가이므로 퓨샷이나 파인튜닝 시의 결과는 다를 수 있다.

실무 활용

다국어 서비스를 개발할 때 날짜 처리 성능을 높이려면 언어별로 다른 전략이 필요함을 시사한다. 저자원 언어는 토큰화 방식 개선이 우선이며 고자원 언어는 모델 내부의 논리적 구조화 능력이 중요하다.

다국어 캘린더 및 일정 예약 시스템의 정확도 개선
이슬람력 및 음력 기반의 시간 추론 서비스 최적화
저자원 언어용 토크나이저 설계 시 날짜 보존 전략 수립
LLM의 시간 관련 할루시네이션 진단 및 평가

코드 공개 여부: 공개

코드 저장소 보기

키워드

Temporal Reasoning(시간 추론)Tokenization(토큰화)mDFR(다국어 날짜 분절 비율)Temporal Linearity(시간적 선형성)Multilingual Benchmark(다국어 벤치마크)