대규모 언어 모델이 따라잡을 수 있을까? 지속적인 지식 스트림에 대한 온라인 적응 벤치마킹

왜 중요한가

현실 세계의 정보는 끊임없이 변하지만 기존 LLM 평가는 정적인 지식에 치중되어 있다. 이 논문은 모델이 실시간으로 변하는 정보를 얼마나 잘 추적하고 논리적 일관성을 유지하는지 평가하는 새로운 기준을 제시하여 더 똑똑한 AI 비서와 로봇 개발의 방향성을 제시한다.

핵심 기여

OAKS 벤치마크 및 데이터셋 제안

스트리밍 환경에서 지속적으로 업데이트되는 지식에 대한 온라인 적응 능력을 평가하는 최초의 통합 프레임워크와 OAKS-BABI, OAKS-Novel 데이터셋을 구축했다.

지식 추적 행동 양식의 체계적 분류

모델의 오류 패턴을 과잉 업데이트(Over-update)와 과소 업데이트(Under-update) 등 8가지 아키타입으로 정의하여 지식 적응 과정을 정밀하게 분석했다.

최신 LLM의 한계점 규명

Gemini 3, Qwen3 등 14종의 모델을 평가한 결과, 빈번한 지식 업데이트 상황에서 정확도가 최대 33.3%까지 급락하는 등 실시간 적응의 취약성을 입증했다.

Thinking Mode의 효용성 확인

추론 시간 스케일링을 통한 사고 과정 추가가 복잡한 지식 연결(Bridge) 질문에서 최대 15.4%의 성능 향상을 가져옴을 확인했다.

핵심 아이디어 이해하기

기존 LLM은 학습된 지식이나 RAG로 검색된 정적인 정보를 바탕으로 추론한다. 하지만 현실의 지식은 'A는 B였다가 C로 변했다'와 같이 시계열적으로 변하며, Transformer의 Attention Mechanism은 단순히 연관된 정보를 찾는 데 특화되어 있어 이러한 '상태 변화'의 선후 관계를 논리적으로 추적하는 데 한계가 있다.

OAKS는 모델에게 지식을 한 번에 주지 않고 작은 조각(Chunk) 단위로 순차적으로 제공하며, 매 순간 동일한 질문에 답하게 함으로써 모델이 새로운 정보를 입력받았을 때 기존 지식을 적절히 수정하거나 유지하는 '동적 적응' 능력을 테스트한다. 이는 모델이 단순히 정보를 기억하는 것을 넘어 지식의 유효 기간과 인과 관계를 이해해야 함을 의미한다.

실험 결과 모델들은 새로운 정보에 너무 민감하게 반응해 불필요하게 답을 바꾸거나, 반대로 새로운 정보가 들어와도 기존 답을 고수하는 관성을 보였다. 이는 LLM이 긴 문맥 속에서 지식의 상태 전이를 완벽하게 파악하지 못하고 주변의 무관한 정보(Distractor)에 쉽게 현혹됨을 시사한다.

방법론

OAKS 프레임워크는 지식 스트림 $c_t$ 와 질문 $q_j$ 를 입력으로 사용한다. 각 시점 $t$ 에서 모델 $M$ 은 현재까지 축적된 컨텍스트 $S_t = \{c_1, \dots, c_t\}$ 를 기반으로 $q_j$ 에 대한 답 $p_{j,t}$ 를 생성한다. [축적된 텍스트 조각들 → 모델 추론 → 현재 시점의 정답 도출 → 지식 상태 유지 여부 확인]

데이터셋은 합성 데이터인 OAKS-BABI와 실제 소설을 활용한 OAKS-Novel로 구성된다. OAKS-BABI는 bAbI 벤치마크를 변형하여 지식 전이(Transition)를 명시적으로 포함했으며, OAKS-Novel은 인물 관계나 상태가 변하는 소설 구간을 추출해 인간이 직접 정답 변화를 주석 달았다.

평가 지표로는 구간별 정확도(Interval-level Accuracy) 외에 세 가지 정밀 지표를 도입했다. 1) Acquisition Latency(AL): 지식 변화 후 정답을 맞히기까지의 지연 시간, 2) Distraction Susceptibility(DS): 정답 이후 다시 틀리는 비율, 3) Phase Miss rate(PM): 특정 지식 단계를 완전히 놓치는 비율이다. [오답 횟수 / 전체 구간 길이 → 비율 계산 → 모델의 적응 속도 및 안정성 수치화]

주요 결과

최신 모델인 Gemini 3 Pro조차 OAKS-BABI에서 66.3%, OAKS-Novel에서 75.5%의 정확도에 그쳤다. 특히 지식 업데이트가 빈번한 'Frequent' 서브셋에서는 정확도가 33.3%(OAKS-B)까지 급락하며 실시간 적응의 어려움을 드러냈다.

Thinking mode를 활성화하면 복잡한 추론 능력이 향상되어 전반적인 정확도가 상승했다. 특히 여러 지식 조각을 연결해야 하는 Bridge 타입 질문에서 15.4%의 성능 향상을 보였으나, 여전히 긴 문맥에서의 간섭(Distraction) 문제는 해결하지 못했다.

RAG와 에이전트 메모리 시스템(HippoRAG, MemAgent 등)을 비교한 결과, 단순 RAG는 지식 업데이트가 잦은 환경에서 성능이 저하되었다. 에이전트 메모리 시스템은 특정 상황에서 RAG보다 우수했으나 전체적인 견고함은 여전히 개선의 여지가 많았다.

실무 활용

실시간으로 변하는 사용자 대화 맥락을 추적해야 하는 AI 비서나 탐사 중 새로운 환경 정보를 습득해야 하는 로봇 제어 시스템의 성능 개선에 직접적으로 활용될 수 있다.

실시간 뉴스 및 주식 시장 변화를 반영하는 금융 상담 에이전트
긴 대화 기록에서 사용자의 선호도 변화를 추적하는 개인화 비서
동적으로 변하는 매뉴얼이나 규정을 실시간으로 참조해야 하는 기술 지원 봇
탐사 로봇이 새로운 환경 지형지물을 발견하고 지도를 갱신하는 상태 추적 시스템

기술 상세

OAKS는 지식의 '상태 전이(State Transition)'를 핵심 평가 요소로 삼는다. 각 질문에 대해 지식이 유효한 구간을 Phase $T_i$ 로 정의하고 모델이 각 Phase 내에서 얼마나 일관되게 정답을 유지하는지 분석한다.

모델의 행동은 8가지 아키타입으로 분류된다. Adaptability(정확한 변화), Maladaptation(잘못된 변화), Prescience(미리 예측), Stubbornness(변화 거부), Lag(늦은 적응), Volatility(불안정한 변화), Stability(정확한 유지), Obstinacy(잘못된 유지)이다. 특히 Volatility는 정답 상태임에도 주변의 무관한 정보 때문에 오답으로 변경하는 현상을 정량화한다.

실험에 사용된 14개 모델은 Qwen3(4B~235B), Gemini 2.5/3, GPT-OSS 등을 포함하며 컨텍스트 구성 전략으로 Base(전체 입력), RAG(Top-30 검색), Agentic Memory(동적 인덱싱)를 비교 검증했다.

분석 결과 모델의 크기가 커질수록 성능이 향상되는 경향이 있으나 특정 지식 업데이트 빈도 임계치를 넘어서면 모델 크기와 상관없이 성능이 수렴하거나 저하되는 현상이 관찰되었다. 이는 단순히 파라미터 수를 늘리는 것보다 지식 갱신 메커니즘의 근본적 개선이 필요함을 시사한다.

한계점

대규모 컨텍스트를 매 시점마다 추론해야 하므로 막대한 계산 비용과 API 비용이 발생한다. 또한 현재 데이터셋이 영어에 국한되어 있어 타 언어 및 문화권으로의 일반화 가능성은 추가 연구가 필요하다.

키워드

Online Adaptation(온라인 적응)Continual Learning(지속 학습)State Tracking(상태 추적)Benchmark(벤치마크)LLM(대형 언어 모델)