핵심 요약
기존 강화학습 기반 후학습 기법은 훈련 시도 후 데이터를 폐기하는 에피소드 단위 학습에 머물러 훈련 기록의 잠재적 정보를 낭비한다. PMD(Procedural Memory Distillation)는 모델의 훈련 시도를 경험, 통찰, 행동이라는 세 단계의 절차적 기억으로 변환하여 저장한다. 이 기억은 훈련 과정에서 모델의 자가 학습(self-teacher)을 보조하는 조건으로 사용되며, 최종 모델은 추론 시 별도의 기억 장치 없이 향상된 성능을 발휘한다. SciKnowEval 및 LiveCodeBench 벤치마크에서 기존 SDPO 대비 유의미한 성능 향상이 확인되었다.
배경
강화학습 기초, LLM 후학습(Post-training), 자기 증류(Self-distillation) 기법
대상 독자
LLM 후학습 및 강화학습 연구자
의미 / 영향
이 기법은 모델이 훈련 과정에서 생성하는 데이터를 단순 폐기하지 않고 지식으로 내재화함으로써 데이터 효율성을 획기적으로 높인다. 특히 복잡한 추론이 필요한 도메인에서 모델의 자가 개선 능력을 강화하는 실질적인 경로를 제시한다.
섹션별 상세




실무 Takeaway
- 훈련 과정에서 발생하는 성공과 실패 사례를 절차적 기억으로 구조화하면 모델의 학습 효율을 극대화할 수 있다.
- 정책과 기억이 상호 진화하는 루프를 구축해야 하며, 어느 한쪽을 고정하면 성능 향상 효과가 감소한다.
- PMD로 학습된 기억은 모델 크기가 달라도 전이 가능하며, 더 많은 기억을 검색할수록 성능이 개선된다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.