핵심 요약
LLM 기반 NPC는 추론 과정에서 확률이 높은 특정 토큰이나 패턴에 고착되는 모드 붕괴(Mode Collapse) 현상으로 인해 대사와 행동을 반복하는 경향이 있다. 이를 해결하기 위해 저자는 단순한 모델 변경 대신 시스템적인 접근법인 노벨티 가드(Novelty Guards)와 액션 어휘집(Action Vocabulary)을 도입했다. 특정 문구의 사용 횟수를 제한하고 감정 상태별로 다양한 행동 선택지를 제공함으로써 NPC의 개성을 유지하면서도 대사의 다양성을 확보할 수 있다. 결과적으로 프롬프트 배치 최적화와 결합하여 반복률을 유의미하게 낮추고 더 생동감 있는 캐릭터 경험을 제공한다.
배경
LLM 추론 및 토큰 생성 원리, 프롬프트 엔지니어링 기초, JSON 데이터 구조 이해
대상 독자
AI 기반 게임 개발자 및 LLM 에이전트 설계자
의미 / 영향
LLM의 확률적 특성으로 발생하는 반복 문제를 시스템적 제약과 큐레이션된 데이터로 해결할 수 있음을 보여준다. 이는 게임 NPC뿐만 아니라 장기 대화가 필요한 모든 LLM 서비스에서 사용자 경험을 개선하는 실질적인 가이드가 된다.
섹션별 상세
LLM NPC의 반복 문제는 모델이 훈련 과정에서 성공적이었던 패턴을 예측하려는 특성과 세션 메모리 부족에서 기인한다. 저자의 실험에 따르면 특정 캐릭터가 150턴의 대화 중 59%의 확률로 동일한 행동 지문을 반복하는 현상이 관찰되었다. 이는 기술적으로 생성 과정에서의 모드 붕괴에 해당하며 캐릭터의 개성을 단순한 캐리커처로 전락시키는 원인이 된다.
노벨티 가드(Novelty Guards)는 작가가 설정한 구성 파일을 통해 특정 문구나 행동의 사용 횟수를 제한하는 시스템이다. 세션 중 문구 사용 빈도를 추적하다가 한계치에 도달하면 다음 생성 시 다양성 유도 프롬프트를 주입한다. 이는 비용이 많이 드는 거부 샘플링(Rejection Sampling) 대신 모델에게 부드러운 가이드를 제공하여 자연스러운 변화를 유도한다.
액션 어휘집(Action Vocabulary)을 구축하여 모델이 매번 새로운 행동을 발명하게 하는 대신 큐레이션된 선택지 중에서 고르도록 유도한다. 감정별로 구체적인 행동 지문을 제공함으로써 모델이 단순 반복에 빠지지 않게 한다. 시스템이 팔레트를 제공하고 AI가 그 위에서 그림을 그리는 구조를 통해 표현의 밀도를 높인다.
프롬프트 내 제약 조건의 배치 순서가 모델의 준수율에 큰 영향을 미친다는 최신성 편향(Recency Bias)을 활용한다. LLM은 프롬프트의 마지막 부분에 더 높은 주의를 기울이므로 반복 금지 규칙을 시스템 프롬프트의 가장 마지막에 배치해야 한다. 이 간단한 순서 조정만으로도 코드 변경 없이 반복률을 20-30% 줄이는 효과가 있다.
</> 코드 예제 포함
실무 Takeaway
- 시그니처 문구 사용 빈도를 8-15% 수준으로 유지하도록 노벨티 가드 임계값을 설정하여 개성과 다양성의 균형을 맞춘다.
- 감정 상태별로 구체적인 행동 지문을 포함하는 액션 어휘집을 구성하여 모델의 출력 다양성을 물리적으로 확보한다.
- 반복 방지 규칙과 같은 핵심 제약 사항은 항상 프롬프트의 가장 마지막 섹션에 배치하여 모델의 인지 우선순위를 높인다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료