Mem-π 기억 정책
Mem-π는 에이전트의 메모리 생성을 상황에 맞춰 온디맨드로 생성하는 파라메트릭 정책이다. 두 단계(distillation) 학습으로 배경 지식을 파라미터에 내재화하고 abstention으로 필요할 때만 메모리를 생성하며, Downstream 과제 성공에 보상을 맞춘다. 외부 메모리의 검색 기반 접근의 한계를 극복하고 메모리 관리의 오버헤드를 줄인다.