Two Minute PapersResearch

DeepSeek Engram: AI에게 외부 기억 장치를 부여하여 성능을 혁신하는 방법

DeepSeek이 발표한 Engram은 Transformer 모델에 효율적인 외부 기억 장치를 통합하여, 단순 지식 검색은 메모리에서 수행하고 연산 자원은 복잡한 추론에 집중하게 함으로써 모든 벤치마크 성능을 향상시킨 기술이다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Engram 기술은 모델의 일부 전문가(Experts)를 효율적인 메모리 조회 시스템으로 대체하여 연산 비용을 줄이면서도 지능을 높였다. 이를 통해 AI가 단순 암기는 메모리에 맡기고 복잡한 추론에 더 많은 자원을 할당할 수 있게 되었다.

배경

기존 Transformer 기반 AI 모델들은 아주 단순한 사실을 인출할 때도 모든 파라미터를 동원해 처음부터 복잡한 수학적 계산을 수행하는 비효율성을 가지고 있었다.

대상 독자

AI 연구자, LLM 개발자, 최신 AI 기술 트렌드에 관심 있는 기술인

의미 / 영향

DeepSeek의 Engram 기술은 거대 언어 모델의 추론 비용을 획기적으로 낮추면서도 성능을 높일 수 있는 실질적인 아키텍처 대안을 제시했다. 이는 고가의 구독 서비스 없이도 개인용 기기에서 구동 가능한 고성능 로컬 AI 시스템의 보급을 가속화할 것이다. 향후 모든 주요 AI 아키텍처가 단순 지식은 효율적인 메모리 시스템에 맡기는 하이브리드 구조로 진화할 것임을 시사한다.

챕터별 상세

00:00

기존 Transformer 모델의 비효율성

현재 대부분의 AI 모델은 단순한 사실 하나를 떠올릴 때도 거대한 신경망 전체를 가동하여 처음부터 계산을 수행한다. 이는 마치 샌드위치를 만들기 위해 매번 땅콩을 심고 수확하는 것과 같은 극심한 연산 낭비를 초래한다. 표준 Transformer 아키텍처는 정보를 저렴하고 빠르게 찾아볼 수 있는 '조회(Lookup)' 기능이 결여되어 모든 응답을 고밀도 수학 연산으로 처리한다. 이러한 구조적 한계는 모델의 크기가 커질수록 추론 비용을 기하급수적으로 증가시키는 원인이 된다.

•단순 사실 인출 시에도 전체 파라미터를 사용하는 연산 낭비 발생
•효율적인 정보 조회 메커니즘의 부재가 Transformer의 주요 한계점
•추론 시 발생하는 높은 계산 비용 문제 지적

python

import pygame
import math
from pygame.locals import *

# Initialize Pygame
pygame.init()

# Set up the screen
screen_width, screen_height = 800, 600
screen = pygame.display.set_mode((screen_width, screen_height))
pygame.display.set_caption("Bouncing Ball")

# // ...(중략)

# Main loop
running = True
while running:
    for event in pygame.event.get():
        if event.type == QUIT:
            running = False
    # // ...로직 수행

DeepSeek-V3를 사용하여 생성한 Pygame 기반의 물리 시뮬레이션 코드 예시

01:45

Engram: AI를 위한 효율적인 기억 저장소

DeepSeek은 모델 내부에 '팬트리(식료품 저장실)' 역할을 하는 Engram 기술을 도입했다. 이 방식은 모든 정보를 처음부터 요리하는 대신, 자주 쓰이는 재료나 완성된 지식을 메모리에 저장해 두었다가 즉시 꺼내 쓴다. 연구 결과에 따르면 Mixture of Experts(MoE) 구조에서 복잡한 추론을 담당하는 전문가 일부를 Engram 메모리 슬롯으로 대체했을 때 모델의 검증 손실(Validation Loss)이 유의미하게 낮아졌다. 이는 모델이 더 적은 연산 자원으로도 더 높은 지능을 발휘할 수 있음을 입증한 결과이다.

•MoE 전문가 중 일부를 Engram 임베딩 슬롯으로 대체
•메모리 기반 조회 시스템 도입으로 검증 손실 수치 대폭 개선
•연산 자원의 효율적 재배치를 통한 전체 모델 지능 향상

03:00

컨텍스트 기반 게이팅 메커니즘

메모리에서 정보를 가져올 때 현재 문맥과 맞지 않는 잘못된 정보를 인출하는 문제를 방지하기 위해 Context-aware Gating 메커니즘을 적용했다. 이 시스템은 현재 요리 중인 메뉴(문맥)와 저장고에서 꺼낸 재료(메모리)가 일치하는지 확인하며, 불일치할 경우 게이트 값을 0으로 떨어뜨려 해당 정보를 차단한다. 기술적으로는 n-gram 임베딩과 Multi-head Hashing을 결합하여 특정 단어 조합에 최적화된 정보를 빠르게 식별한다. 이를 통해 모델은 노이즈를 억제하고 정확한 사실 관계만을 응답에 반영할 수 있다.

•문맥과 메모리 정보의 일치 여부를 판단하는 게이팅 시스템 구축
•N-gram 임베딩과 멀티헤드 해싱을 통한 고속 정보 식별 구현
•부적절한 정보 인출을 차단하여 응답의 정확도와 신뢰성 확보

04:00

전 분야 벤치마크 성능 향상 결과

Engram 기술을 적용한 결과 MMLU, 추론, 코드, 수학 등 거의 모든 주요 벤치마크에서 기존 방식보다 뛰어난 성능을 기록했다. 특정 분야에서만 강점을 보이는 일반적인 기술들과 달리, 전 영역에서 지표가 상승하는 이례적인 성과를 거두었다. 이는 단순한 최적화를 넘어 모델의 근본적인 정보 처리 효율이 개선되었음을 의미한다. 특히 지식 집약적인 작업에서 성능 향상 폭이 컸으며, 이는 메모리 시스템이 사실적 지식을 효과적으로 관리하고 있음을 보여준다.

•MMLU, 코드, 수학 등 모든 벤치마크 지표에서 성능 향상 확인
•단순 최적화를 넘어선 전방위적 정보 처리 효율 개선
•지식 집약적 작업에서 특히 두드러진 성능 우위 확보

06:00

지식 저장과 추론 능력의 분리 확인

테스트 과정에서 Engram 메모리를 의도적으로 차단했을 때, 상식 퀴즈(Trivia) 성능은 70%나 급락한 반면 독해(Reading Comprehension) 능력은 93% 수준을 유지했다. 이 실험 결과는 모델이 Engram을 순수하게 '사실 저장소'로 사용하고, 기존 신경망 구조는 '추론 및 문맥 이해'에 집중하도록 역할 분담이 완벽히 이루어졌음을 증명한다. 이러한 역할 분리는 AI가 더 복잡한 논리적 사고에 연산 자원을 집중할 수 있게 만드는 핵심 동력이 된다. 결과적으로 더 저렴하고 똑똑한 로컬 AI 시스템 구축의 가능성을 열었다.

•메모리 차단 시 상식 성능은 급락하나 독해 능력은 유지됨을 확인
•사실 저장(Memory)과 논리 추론(Reasoning)의 명확한 역할 분담 증명
•연산 자원을 고차원적 추론에 집중시켜 효율성 극대화

실무 Takeaway

Transformer 모델의 일부 전문가 네트워크를 n-gram 기반 메모리 슬롯으로 대체하면 연산 비용을 낮추면서도 지식 인출 능력을 강화할 수 있다
Context-aware Gating 메커니즘을 통해 인출된 메모리가 현재 문맥과 일치하는지 검증함으로써 할루시네이션과 노이즈를 억제할 수 있다
지식 저장과 논리 추론의 역할을 분리함으로써 모델이 복잡한 추론 작업에 더 많은 연산 자원을 할당하도록 유도할 수 있다

언급된 리소스

논문Engram: A Memory-Augmented Language Model

GitHubDeepSeek Engram GitHub Repository

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 03. 25.수집 2026. 03. 25.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

DeepSeek Engram: AI에게 외부 기억 장치를 부여하여 성능을 혁신하는 방법 | AI Trends