LLM NPC가 똑같은 말만 반복하는 이유와 해결 방법

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

LLM 기반 NPC는 대화가 길어질수록 특정 문구나 행동을 반복하는 '모드 붕괴' 현상을 보이며 몰입감을 해친다. 이는 모델이 훈련 과정에서 성공적이었던 패턴에 고착되고 세션 전체의 발화 이력을 관리하지 못하기 때문에 발생한다. 이를 해결하기 위해 저자는 특정 문구 사용 횟수를 제한하는 '노벨티 가드(Novelty Guards)'와 상황별 구체적 행동을 정의한 '액션 어휘집' 시스템을 제안한다. 또한 프롬프트의 마지막 부분에 제약 사항을 배치하는 '최신성 편향' 원리를 적용하여 반복률을 60%에서 10% 수준으로 낮추는 성과를 거두었다.

배경

LLM 추론 및 토큰 예측 원리에 대한 이해, 기본적인 프롬프트 엔지니어링 지식, JSON 기반의 시스템 설정 구조 이해

대상 독자

LLM 기반 게임 에이전트 및 NPC 대화 시스템을 개발하는 엔지니어와 작가

의미 / 영향

이 기술은 LLM NPC의 고질적인 문제인 반복성을 해결하여 게임의 몰입도를 획기적으로 높일 수 있다. 특히 고가의 모델을 재학습시키지 않고도 시스템적인 가이드와 프롬프트 구조 최적화만으로 캐릭터의 생동감을 제어할 수 있다는 점에서 실용성이 매우 높다.

섹션별 상세

LLM NPC의 반복 문제는 모델 자체의 결함이라기보다 다음 토큰을 확률적으로 예측하는 특성상 발생하는 시스템적 문제이다. 실험 결과 150턴의 대화 중 특정 행동 묘사가 59%에 달하는 등 모델이 한 번 성공한 패턴에 고착되는 '모드 붕괴(Mode Collapse)' 현상이 확인되었다.

노벨티 가드(Novelty Guards)는 설정 파일을 통해 특정 유행어나 행동의 최대 사용 횟수를 정의하고 한도에 도달하면 모델에게 변화를 촉구하는 다양성 프롬프트를 주입하는 방식이다. 이는 비용이 많이 드는 거부 샘플링 대신 모델에게 부드러운 가이드를 제공하여 자연스러운 변화를 유도한다.

json

{
  "novelty_rules": {
    "catchphrase_limits": {
      "let me tell you": 4,
      "my good friend": 5,
      "back in my day": 4
    },
    "action_limits": {
      "takes a swig": 3,
      "takes a long": 4,
      "eyes unfocused": 3
    },
    "variety_prompts": [
      "Note: Vary your approach this turn. Your catchphrases work best when they land occasionally, not constantly.",
      "Note: Show a different facet of your character here.",
      "Note: Find a fresh angle for this moment."
    ]
  }
}

특정 문구와 행동의 사용 횟수를 제한하고 한도 초과 시 다양성을 유도하는 노벨티 가드 설정 예시

액션 어휘집(Action Vocabulary)은 캐릭터의 감정 상태에 따라 구체적인 행동 묘사 리스트를 제공하여 모델의 선택지를 넓힌다. 모델이 스스로 일반적인 행동을 발명하게 두는 대신 큐레이팅된 어휘집에서 선택하게 함으로써 묘사의 구체성과 다양성을 동시에 확보한다.

json

{
  "action_vocabulary": {
    "drunk": [
      "(sloshing whiskey onto the carpet, not noticing)",
      "(gripping the armrest to steady himself)",
      "(squinting as if the room is too bright)",
      "(fumbling with his glass, nearly dropping it)"
    ],
    "defensive": [
      "(straightening his tie with trembling fingers)",
      "(stepping back, bumping into the sideboard)",
      "(glancing toward the door)"
    ]
  }
}

캐릭터의 감정 상태에 따라 선택할 수 있는 구체적인 행동 묘사 어휘집 구성

프롬프트 내 제약 사항의 위치가 성능에 큰 영향을 미치며 LLM은 프롬프트의 중간보다 끝부분에 더 집중하는 최신성 편향(Recency Bias)을 보인다. 반복 금지와 같은 핵심 규칙을 시스템 프롬프트의 마지막에 배치하는 것만으로도 별도의 코드 수정 없이 반복률을 20-30% 줄일 수 있다.

75턴 이상의 장기 테스트 결과 반복률을 0%로 만드는 것보다 8-15% 수준으로 유지하는 것이 캐릭터의 개성을 살리는 데 가장 효과적이다. 하인 캐릭터가 특정 문구를 적절히 사용하는 것은 버그가 아니라 캐릭터의 정체성을 형성하는 핵심 요소이기 때문이다.

실무 Takeaway

LLM NPC의 반복 문제를 해결하려면 단순한 프롬프트 수정을 넘어 문구 사용 횟수를 추적하고 제한하는 시스템적 노벨티 가드를 구축해야 한다.
모델이 일반적인 묘사를 반복하지 않도록 감정 상태별로 구체적인 행동 리스트를 제공하는 액션 어휘집을 활용하여 묘사의 밀도를 높여야 한다.
프롬프트 엔지니어링 시 핵심 제약 사항을 가장 마지막에 배치하여 모델의 최신성 편향을 활용함으로써 지시 이행률을 극대화할 수 있다.

언급된 리소스

논문Diverse Beam Search: Decoding Diverse Solutions from Neural Sequence Models

{ "novelty_rules": { "catchphrase_limits": { "let me tell you": 4, "my good friend": 5, "back in my day": 4 }, "action_limits": { "takes a swig": 3, "takes a long": 4, "eyes unfocused": 3 }, "variety_prompts": [ "Note: Vary your approach this turn. Your catchphrases work best when they land occasionally, not constantly.", "Note: Show a different facet of your character here.", "Note: Find a fresh angle for this moment." ] } }

{ "action_vocabulary": { "drunk": [ "(sloshing whiskey onto the carpet, not noticing)", "(gripping the armrest to steady himself)", "(squinting as if the room is too bright)", "(fumbling with his glass, nearly dropping it)" ], "defensive": [ "(straightening his tie with trembling fingers)", "(stepping back, bumping into the sideboard)", "(glancing toward the door)" ] } }

LLM NPC가 똑같은 말만 반복하는 이유와 해결 방법

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

LLM NPC가 똑같은 말만 반복하는 이유와 해결 방법

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

실무 Takeaway

언급된 리소스

관련 토론

댓글

관련 피드

관련 토론

댓글

관련 피드