Procedural Memory Distillation (PMD): 훈련 기록을 절차적 기억으로 변환하는 새로운 학습 기법

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

기존 강화학습 기반 후학습 기법은 훈련 시도 후 데이터를 폐기하는 에피소드 단위 학습에 머물러 훈련 기록의 잠재적 정보를 낭비한다. PMD(Procedural Memory Distillation)는 모델의 훈련 시도를 경험, 통찰, 행동이라는 세 단계의 절차적 기억으로 변환하여 저장한다. 이 기억은 훈련 과정에서 모델의 자가 학습(self-teacher)을 보조하는 조건으로 사용되며, 최종 모델은 추론 시 별도의 기억 장치 없이 향상된 성능을 발휘한다. SciKnowEval 및 LiveCodeBench 벤치마크에서 기존 SDPO 대비 유의미한 성능 향상이 확인되었다.

배경

강화학습 기초, LLM 후학습(Post-training), 자기 증류(Self-distillation) 기법

대상 독자

LLM 후학습 및 강화학습 연구자

의미 / 영향

이 기법은 모델이 훈련 과정에서 생성하는 데이터를 단순 폐기하지 않고 지식으로 내재화함으로써 데이터 효율성을 획기적으로 높인다. 특히 복잡한 추론이 필요한 도메인에서 모델의 자가 개선 능력을 강화하는 실질적인 경로를 제시한다.

섹션별 상세

기존 RLVR이나 self-distillation 방식은 훈련 시도 후 데이터를 대부분 폐기하여 훈련 과정에서 얻을 수 있는 전략적 패턴을 활용하지 못한다.

PMD는 훈련 시도를 경험(Experience), 통찰(Insight), 행동(Behavior)의 계층적 절차적 기억으로 구조화하여 저장한다.

PMD의 훈련 루프 및 기억 계층 구조 다이어그램 — Diagram모델의 시도, 기억 형성, 교사 모델의 지도, 학생 모델 업데이트로 이어지는 전체 순환 과정을 보여준다. 경험, 통찰, 행동으로 이어지는 기억 계층 구조를 명확히 설명한다.

경험 기억은 원시 궤적을, 통찰 기억은 문제별 전략과 실패 원인을, 행동 기억은 문제 간 공통된 일반 기술을 추상화하여 보관한다.

훈련 루프에서 현재 정책이 생성한 시도를 기억으로 저장하고, 이 기억을 조건으로 하는 자가 학습 교사가 다음 정책을 업데이트하는 방식으로 정책과 기억이 상호 진화한다.

PMD 구성 요소별 성능 기여도 분석 테이블 — Other반사(Reflection), 지속성(Persistence), 상호 진화(Co-evolution)가 결합되었을 때 최고의 성능을 냄을 보여준다. 정책이나 기억 중 하나만 고정할 경우 성능이 저하됨을 증명한다.

SciKnowEval 벤치마크에서 Qwen3-8B 모델 기준 SDPO 대비 평균 정확도가 74.4에서 77.2로 상승했다.

PMD와 기존 기법(GRPO, SDPO)의 벤치마크 성능 비교 차트 — ChartQwen3-8B와 OLMo3-Instruct-7B 모델에서 PMD가 기존 기법 대비 SciKnowEval 및 LiveCodeBench에서 일관된 성능 향상을 보임을 입증한다.

추론 시점에는 기억 장치를 사용하지 않으며, 훈련 과정에서 습득한 절차적 지식이 모델 가중치에 내재화되어 성능 향상으로 이어진다.

모델 크기별 PMD 기억 전이 성능 차트 — ChartPMD로 학습된 기억이 1.7B부터 32B까지 다양한 모델 크기에서 성능 향상을 이끌어냄을 보여준다. 기억 검색량이 많을수록 성능이 개선됨을 나타낸다.

실무 Takeaway

훈련 과정에서 발생하는 성공과 실패 사례를 절차적 기억으로 구조화하면 모델의 학습 효율을 극대화할 수 있다.
정책과 기억이 상호 진화하는 루프를 구축해야 하며, 어느 한쪽을 고정하면 성능 향상 효과가 감소한다.
PMD로 학습된 기억은 모델 크기가 달라도 전이 가능하며, 더 많은 기억을 검색할수록 성능이 개선된다.