프롬프트 반복: LLM 성능을 높이는 간과된 해킹 방법

핵심 요약

대형 언어 모델(LLM)의 성능을 높이기 위해 흔히 복잡한 프롬프트 엔지니어링이나 파인튜닝을 고려하지만, 단순히 프롬프트 전체를 복사하여 두 번 입력하는 '프롬프트 반복(Prompt Repetition)'만으로도 놀라운 성능 향상을 얻을 수 있다. 최근 연구에 따르면 이 기법은 특히 리스트 인덱싱이나 다지선다형 문제와 같은 비추론(Non-reasoning) 작업에서 효과적이며, Gemini 2.0 Flash Lite의 경우 특정 작업에서 정확도가 21%에서 97%로 상승하기도 했다. 이 방법은 출력 토큰을 늘리지 않아 비용 효율적이며, 지연 시간(Latency)에도 큰 영향을 주지 않아 실무 적용 가치가 매우 높다.

배경

LLM 프롬프트 엔지니어링 기초, 토큰 및 컨텍스트 윈도우 개념, LLM 추론 단계(Prefill vs Generation) 이해

대상 독자

LLM 애플리케이션의 정확도를 높이고자 하는 AI 엔지니어 및 프롬프트 엔지니어

의미 / 영향

복잡한 기법 없이도 입력 방식의 변화만으로 모델의 인코딩 능력을 극대화할 수 있음을 보여준다. 이는 특히 비용과 지연 시간에 민감한 프로덕션 환경에서 저비용 고효율의 최적화 수단이 될 것이다.

섹션별 상세

LLM은 텍스트를 순차적으로 처리하며 각 토큰은 이전 토큰에만 주의(Attention)를 기울일 수 있는 인과적(Causal) 구조를 갖는다. 프롬프트를 반복하면 모델이 입력 단계(Prefill)에서 정보를 두 번 처리하게 되어, 모든 토큰이 관련 정보에 다시 주의를 기울일 기회를 얻게 된다. 이는 모델이 답변을 생성하기 전에 입력 데이터의 내부 표현을 강화하는 효과를 가져온다.

연구진은 GPT-4o, Claude, Gemini 등 주요 모델을 대상으로 ARC, GSM8K, MMLU-Pro 등 7개 작업을 테스트했다. 총 70번의 비교 실험 중 47번에서 정확도 향상이 관찰되었으며, 성능이 유의미하게 하락한 경우는 없었다. 특히 구조화된 데이터나 위치 정보가 중요한 작업에서 성능 향상이 두드러졌다.

50개의 이름 리스트에서 특정 순서의 이름을 찾는 'NameIndex' 작업에서 프롬프트 반복의 위력이 증명되었다. 기본 프롬프트 사용 시 Gemini 2.0 Flash Lite의 정확도는 21.33%에 불과했으나, 동일한 내용을 두 번 반복하자 97.33%로 급등했다. 이는 반복이 모델의 시퀀스 및 위치 인코딩 능력을 강화함을 시사한다.

프롬프트 반복은 Chain-of-Thought(CoT)와 달리 모델이 추가적인 추론 과정을 출력하지 않으므로 출력 토큰 비용이 증가하지 않는다. 계산 부하는 병렬 처리가 가능한 입력 단계(Prefill)에 집중되므로, 아주 긴 프롬프트가 아닌 이상 전체 지연 시간에 미치는 영향은 미미하다. 따라서 기존 시스템의 파싱 로직을 수정할 필요 없이 즉시 도입 가능하다.

이 기법은 논리적 추론이 필요한 작업보다는 다지선다형 응답, 리스트 인덱싱, 구조화된 데이터 추출, 분류 작업 등에서 가장 효과적이다. 이미 '단계별로 생각하라'와 같은 추론 프롬프트를 사용 중인 경우, 모델이 이미 내부적으로 정보를 재검토하므로 반복에 의한 추가 이득은 적을 수 있다.

이미지 분석

Diagram
LLM이 제한된 주의력을 가지고 텍스트를 처리하는 방식과, 프롬프트를 두 번 반복했을 때 모델이 정보를 두 번 보게 되어 출력이 개선되는 메커니즘을 시각화했다.
LLM의 텍스트 처리 방식과 프롬프트 반복이 도움을 주는 이유를 설명하는 다이어그램이다.

Chart
ARC, GSM8K, MMLU-Pro 등 여러 테스트에서 프롬프트 반복(연한 색)이 베이스라인(진한 색)보다 일관되게 높은 정확도를 기록함을 보여준다.
다양한 벤치마크에서 프롬프트 반복과 베이스라인의 정확도를 비교한 차트이다.

Screenshot
50개의 이름 리스트를 제공하고 특정 순서의 이름을 묻는 작업의 구조를 보여주며, 모델이 위치 정보를 어떻게 처리해야 하는지 설명한다.
실험에 사용된 NameIndex 작업의 예시 프롬프트이다.

Chart
프롬프트 반복이 정확도는 높이면서도 응답 길이는 늘리지 않으며, 지연 시간 또한 베이스라인과 유사한 수준을 유지함을 수치로 증명한다.
프롬프트 반복 시의 정확도, 지연 시간, 응답 길이를 비교한 상세 데이터이다.

Chart
단계별 추론(Step-by-step)이 포함되지 않은 일반 작업에서 프롬프트 반복의 효과가 가장 극적으로 나타남을 비교 분석했다.
추론 프롬프트 유무에 따른 프롬프트 반복의 효과 차이를 보여주는 차트이다.

실무 Takeaway

비추론 작업(분류, 추출, 인덱싱)에서 성능이 낮을 경우 프롬프트를 단순히 두 번 반복(prompt + '\n' + prompt)하여 테스트하라.
출력 형식을 유지하면서 정확도만 높이고 싶을 때 Chain-of-Thought의 대안으로 활용 가능하다.
컨텍스트 윈도우 제한을 확인하고, Anthropic 모델 등 일부 모델에서의 Prefill 지연 시간 증가 여부를 모니터링하라.

언급된 리소스

논문Prompt Repetition Improves Non-Reasoning LLMs

핵심 요약

배경

LLM 프롬프트 엔지니어링 기초, 토큰 및 컨텍스트 윈도우 개념, LLM 추론 단계(Prefill vs Generation) 이해

대상 독자

LLM 애플리케이션의 정확도를 높이고자 하는 AI 엔지니어 및 프롬프트 엔지니어

의미 / 영향

섹션별 상세

이미지 분석

실무 Takeaway

비추론 작업(분류, 추출, 인덱싱)에서 성능이 낮을 경우 프롬프트를 단순히 두 번 반복(prompt + '\n' + prompt)하여 테스트하라.
출력 형식을 유지하면서 정확도만 높이고 싶을 때 Chain-of-Thought의 대안으로 활용 가능하다.
컨텍스트 윈도우 제한을 확인하고, Anthropic 모델 등 일부 모델에서의 Prefill 지연 시간 증가 여부를 모니터링하라.

언급된 리소스

논문Prompt Repetition Improves Non-Reasoning LLMs

프롬프트 반복: LLM 성능을 높이는 간과된 해킹 방법

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

이미지 분석

실무 Takeaway

언급된 리소스

프롬프트 반복: LLM 성능을 높이는 간과된 해킹 방법

핵심 요약

배경

대상 독자

의미 / 영향

섹션별 상세

이미지 분석

실무 Takeaway

언급된 리소스

관련 피드

관련 토론

댓글

관련 피드

관련 토론

댓글