프롬프트 없이 LLM은 무엇을 생성하는가: 제약 없는 생성 연구

핵심 요약

기존 LLM 평가는 특정 작업이나 주제에 국한된 프롬프트에 의존하여 모델의 잠재적 행동 범위를 제한하는 한계가 존재한다. 본 연구는 'Actually,'나 '.'와 같은 주제 중립적인 최소 프롬프트를 사용하여 모델의 학습된 생성 사전 확률(learned generative prior)을 분석했다. 실험 결과 GPT-OSS는 프로그래밍과 수학, Llama는 문학, DeepSeek은 종교, Qwen은 객관식 문제 생성에 치우치는 등 모델 제품군별로 고유한 지식 편향이 발견됐다. 제약 없는 생성 환경에서 발생하는 텍스트 퇴행 현상은 모델의 안전성 및 개인정보 유출 위험을 진단하는 중요한 지표로 활용될 수 있다.

배경

LLM 추론 및 프롬프트 엔지니어링 기초, 임베딩 및 벡터 공간의 이해

대상 독자

LLM 모델 평가 및 안전성 연구자

의미 / 영향

이 연구는 벤치마크 점수만으로 알 수 없는 모델의 내재적 편향을 식별하는 새로운 평가 프레임워크를 제시한다. 특히 모델의 기본 지식 분포가 실제 서비스 환경에서의 예기치 못한 출력이나 개인정보 유출로 이어질 수 있음을 경고한다.

섹션별 상세

기존 LLM 분석은 프롬프트에 의해 유도된 행동만을 측정하므로 모델의 자연스러운 행동을 파악하기 어렵다. 연구진은 시스템 프롬프트나 채팅 템플릿을 제거하고 'Actually,'와 같은 최소한의 프롬프트만을 사용하여 모델이 스스로 무엇을 생성하고자 하는지 관찰했다. 이를 통해 정렬과 프롬프트 엔지니어링이 개입하기 전 모델의 근본적인 지식 우선순위를 확인하고자 했다.

실험 결과 모델들은 명시적인 지시 없이도 다양한 주제를 생성하지만 제품군마다 선호하는 영역이 극명하게 갈렸다. GPT-OSS는 생성물의 50% 이상이 프로그래밍과 수학에 집중된 반면, Llama는 서사적이고 문학적인 텍스트 비중이 높았다. DeepSeek은 종교적 콘텐츠 생성 비율이 높았고, Qwen은 정답 선택지가 포함된 객관식 시험 문제를 생성하는 경향을 보였다.

단순히 주제의 빈도뿐만 아니라 생성된 내용의 기술적 깊이에서도 차이가 나타났다. GPT-OSS는 동적 프로그래밍이나 그래프 탐색과 같은 고급 전문가 수준의 콘텐츠를 68.2% 비율로 생성했다. 반면 Llama와 Qwen은 기초적이거나 중간 수준의 내용을 주로 생성하는 것으로 분석됐다.

제약이 없는 환경에서 모델이 반복적이거나 무의미한 출력을 내뱉는 현상을 분석한 결과 이는 모델의 고유한 특성을 반영했다. GPT-OSS는 코드 블록 구분자를 반복하는 경향이 있었고, Qwen은 이모지와 중국어 텍스트를 포함한 긴 대화 문구를 생성했다. 특히 Llama는 실제 개인의 페이스북이나 인스타그램 URL을 노출하는 등 개인정보 유출 및 안전성 위험을 드러냈다.

모든 모델이 수학이나 프로그래밍 벤치마크에서 우수한 성적을 거두더라도 프롬프트가 없는 상태에서의 기본값은 모델마다 체계적으로 달랐다. 이러한 제약 없는 생성 분석은 기존 벤치마크가 놓치기 쉬운 모델의 내재적 편향과 위험 요소를 파악하는 데 유용하다. 연구진은 LLM을 단순한 시험 응시자가 아닌 시스템으로 이해하기 위해 이러한 기본 행동 연구가 필수적이라고 결론지었다.