상태 벡터
시스템의 현재 상태를 수치화된 다차원 배열로 표현한 것이다. 여기서는 사용자의 선호도와 학습된 상태를 128차원으로 관리하여 모델의 반응을 동적으로 조정하는 데 쓰인다.
제어는 단순한 최적화가 아니다? 최적 제어와 강화학습의 본질적 차이
4B 소형 모델로 구현한 완벽한 페르소나와 영구 기억 시스템