핵심 요약
기존 LLM 메모리 평가는 사실을 기억해내는 '명시적 회상'에만 치중되어 있어, 배운 절차를 무의식적으로 적용하거나 실패한 행동을 자동으로 피하는 '암묵적 메모리' 능력을 간과했다. 이 논문은 LLM 에이전트가 명시적인 지시 없이도 과거 경험을 행동으로 전환할 수 있는지 측정하는 최초의 체계적인 벤치마크를 제시하여 진정한 지능형 비서로의 발전 방향을 제시한다.
왜 중요한가
기존 LLM 메모리 평가는 사실을 기억해내는 '명시적 회상'에만 치중되어 있어, 배운 절차를 무의식적으로 적용하거나 실패한 행동을 자동으로 피하는 '암묵적 메모리' 능력을 간과했다. 이 논문은 LLM 에이전트가 명시적인 지시 없이도 과거 경험을 행동으로 전환할 수 있는지 측정하는 최초의 체계적인 벤치마크를 제시하여 진정한 지능형 비서로의 발전 방향을 제시한다.
핵심 기여
IMPLICITMEMBENCH 벤치마크 구축
인지과학의 비선언적 메모리 이론에 기반하여 절차적 메모리, 프라이밍, 고전적 조건형성이라는 세 가지 핵심 구조를 평가하는 300개의 테스트 항목으로 구성된 벤치마크를 설계했다.
Learning-Interference-Test 프로토콜 제안
학습 후 간섭 단계를 거쳐 첫 번째 시도에서 성공 여부를 측정하는 통합 프로토콜을 도입하여, 단순한 문맥 유지 능력이 아닌 내재화된 행동 변화를 격리하여 평가한다.
17개 최신 LLM의 암묵적 메모리 한계 규명
DeepSeek-R1, GPT-5 등 최신 모델을 포함한 17개 모델을 평가한 결과, 어떤 모델도 전체 정확도 66%를 넘지 못했으며 인간 수준의 자동화된 행동 적응에는 크게 미치지 못함을 확인했다.
핵심 아이디어 이해하기
기존의 LLM 메모리는 Transformer의 Attention Mechanism을 통해 과거 토큰을 참조하여 정보를 추출하는 '검색 및 회상' 방식에 의존한다. 이는 시험 문제를 풀 때 교과서를 찾아보는 것과 같아서, 명시적인 질문이 주어지지 않으면 과거의 경험이 현재의 행동에 자연스럽게 녹아들지 못하는 한계가 있다. 진정한 지능은 매번 기억을 떠올리지 않아도 익숙한 작업을 자동으로 수행하거나 위험을 직관적으로 피하는 암묵적 메모리에서 비롯된다.
이 논문은 LLM이 특정 규칙이나 성향을 학습한 뒤, 전혀 다른 대화(간섭)를 거치고 나서도 그 규칙을 무의식적으로 지키는지 확인한다. 예를 들어 'A 대신 B를 사용하라'는 규칙을 배운 뒤 일상 대화를 나누고 나서, 다시 작업이 주어졌을 때 지시 없이도 B를 선택하는지를 측정한다. 이는 모델의 가중치 업데이트나 복잡한 추론 없이도 문맥 내에서 경험이 행동 양식으로 고착화될 수 있는지를 탐구하는 것이다.
결과적으로 현재의 LLM 아키텍처는 매개변수 규모를 키우더라도 이러한 무의식적 적응 능력에는 명확한 한계(Ceiling Effect)가 있음이 드러났다. 이는 단순히 더 많은 데이터를 학습하는 것을 넘어, 경험을 자동화된 행동으로 통합할 수 있는 새로운 아키텍처적 혁신이 필요함을 시사한다.
방법론
IMPLICITMEMBENCH는 인지과학의 세 가지 메커니즘을 텍스트 기반 에이전트 시나리오로 변환했다. 첫째, Procedural Memory는 새로운 규칙을 최소한의 노출로 습득하고 간섭 후에도 실행하는 능력을 측정한다. 둘째, Priming은 이전 문맥의 테마가 명시적 지시 없이 이후 생성물의 스타일에 영향을 주는지 평가한다. 셋째, Classical Conditioning은 자극과 결과의 반복적 쌍을 통해 특정 행동을 자동으로 회피하거나 선택하는 방어 기제 형성을 확인한다.
평가는 Learning/Priming → Interference → Test의 3단계 프로토콜로 진행된다. 학습 단계에서 특정 규칙이나 테마에 노출시킨 후, 약 500 토큰 분량의 무관한 대화(Interference)를 삽입하여 단기 기억의 직접적인 영향을 억제한다. 이후 테스트 단계에서 첫 번째 응답(First-attempt)만을 점수화하여 모델이 지시 없이도 해당 행동을 자동으로 수행하는지 측정한다.
데이터 생성은 GPT-4o-mini를 활용한 자동 생성과 인간의 검수를 결합한 2단계 파이프라인을 사용했다. 각 항목은 구조적 요구사항과 의미론적 정확성을 검증받았으며, Procedural Memory는 규칙 준수 여부를, Priming은 LLM 판정단(LLM-as-Judge)을 통한 영향력 점수를, Classical Conditioning은 회피 행동 성공률을 지표로 삼는다.
관련 Figure

데이터 생성 단계에서 LLM을 통해 후보를 생성하고 미세 조정 및 인간 편집을 거쳐 최종 데이터셋을 구축하는 과정을 설명한다. 평가 단계에서는 절차적 메모리와 조건형성에는 FTA(First-Try Accuracy)를, 프라이밍에는 PIS(Priming Influence Score)를 사용하여 모델의 무의식적 적응을 정밀하게 측정함을 보여준다.
IMPLICITMEMBENCH의 데이터 생성 파이프라인과 평가 메트릭을 보여주는 전체 프레임워크 다이어그램이다.
주요 결과
17개 모델 평가 결과, DeepSeek-R1이 65.3%로 1위를 차지했으며 Qwen3-32B(64.1%)와 GPT-5(63.0%)가 그 뒤를 이었다. 모든 모델이 인간 기준점(100%)에 비해 현저히 낮은 성능을 보였으며, 특히 파라미터 수가 성능 향상과 반드시 직결되지 않는 '성능 정체 현상'이 관찰됐다.
패러다임별 비대칭성이 뚜렷하게 나타났다. 모델들은 긍정적인 선호도를 형성하는 작업(75.0%)에는 비교적 능숙했으나, 특정 행동을 억제해야 하는 금지 작업(17.6%)에서는 매우 취약했다. 특히 Classical Conditioning 영역에서 API 사용 거부나 특정 형식 회피와 같은 안전 관련 자동 반응 형성에서 큰 병목 현상이 발견됐다.
모델별 특화 프로필도 확인됐다. Claude-4.1-opus는 절차적 메모리에서 76.67%로 최고점을 기록했으나 조건형성에서는 41.67%로 급락하는 등 특정 영역에 편중된 능력을 보였다. 반면 DeepSeek-R1은 세 영역 모두에서 비교적 균형 잡힌 성능을 유지하며 종합 1위를 기록했다.
기술 상세
IMPLICITMEMBENCH는 비선언적 메모리(Non-declarative memory)의 기능적 동형성(Functional Isomorphism)을 텍스트 시나리오로 구현했다. 아키텍처적으로는 고정된 컨텍스트 윈도우 내에서 정보가 어떻게 내재화되는지를 탐구하며, 특히 간섭 단계(Interference phase)를 통해 Recency Effect를 제거하고 진정한 의미의 행동 적응을 측정하도록 설계됐다.
실험 결과에 따르면, 현재의 Transformer 기반 모델들은 명시적인 검색 모듈(RAG)이나 외부 메모리 시스템을 추가하더라도 암묵적 메모리 성능이 일관되게 향상되지 않았다. 이는 암묵적 메모리가 단순히 저장된 정보를 '찾아오는' 문제가 아니라, 입력된 컨텍스트를 모델의 행동 정책(Policy)으로 즉각적으로 통합하는 능력의 문제임을 시사한다.
또한, 모델들이 긍정적 강화(Preference)에는 반응하지만 부정적 피드백을 통한 억제(Inhibition)에는 실패하는 현상은 현재의 RLHF(인간 피드백 기반 강화학습) 과정이 명시적인 보상에는 최적화되어 있으나, 미묘한 문맥적 제약을 행동으로 연결하는 데는 한계가 있음을 보여준다. 연구진은 이를 해결하기 위해 단순한 스케일링을 넘어선 새로운 주의 집중 메커니즘이나 메모리 통합 구조의 필요성을 제언한다.
한계점
본 연구는 인지과학의 세 가지 패러다임(절차적 메모리, 조건형성, 프라이밍)에 집중하고 있으며, 지각 학습(Perceptual learning), 습관 형성(Habit formation), 운동 기술 습득(Motor skill acquisition) 등 암묵적 인지의 다른 측면은 아직 포함하지 못했다.
실무 활용
이 벤치마크는 실무에서 LLM 에이전트가 사용자의 선호도를 자동으로 학습하거나 반복되는 오류를 스스로 교정하는 능력을 평가하는 데 활용될 수 있다.
- 사용자의 특정 코딩 스타일이나 API 호출 관례를 명시적 지시 없이도 에이전트가 자동으로 준수하는지 테스트
- 보안 위협이 되는 경로 접근이나 위험한 프로토콜 사용을 반복적인 피드백을 통해 에이전트가 본능적으로 회피하도록 훈련 및 검증
- 다양한 도메인(의료, 법률 등) 특유의 어조와 테마를 에이전트가 자연스럽게 체득하여 일관성을 유지하는지 평가
코드 공개 여부: 공개
코드 저장소 보기키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.