핵심 요약
프롬프트 최적화는 모델 가중치를 수정하지 않고도 성능을 높일 수 있는 강력한 도구이지만, 작업에 따라 성능 향상 폭이 불규칙하다는 문제가 있었다. 이 논문은 데이터셋의 다양성이 오히려 최적화 신호를 약화시킨다는 사실을 발견하고, 변동성이 큰 소수의 프롬프트만 선별해 학습 효율을 극대화하는 새로운 방향을 제시한다.
왜 중요한가
프롬프트 최적화는 모델 가중치를 수정하지 않고도 성능을 높일 수 있는 강력한 도구이지만, 작업에 따라 성능 향상 폭이 불규칙하다는 문제가 있었다. 이 논문은 데이터셋의 다양성이 오히려 최적화 신호를 약화시킨다는 사실을 발견하고, 변동성이 큰 소수의 프롬프트만 선별해 학습 효율을 극대화하는 새로운 방향을 제시한다.
핵심 기여
보상 분산 분해를 통한 최적화 가능성 분석
시스템 프롬프트에 따른 보상 분산을 '응답 간 분산(생성 확률성)'과 '시스템 프롬프트 간 분산(프롬프트 품질 차이)'으로 분해하여, 후자가 충분히 클 때만 최적화가 성공한다는 메커니즘을 규명했다.
데이터셋 크기와 최적화 성능의 역설적 관계 발견
데이터셋이 커지고 이질적일수록 각 사용자 프롬프트가 선호하는 시스템 프롬프트가 서로 달라져 품질 차이 신호가 상쇄되고, 결과적으로 자동 최적화가 어려워진다는 사실을 증명했다.
고분산 프롬프트 필터링 기법 p1 제안
전체 데이터셋 대신 시스템 프롬프트 간의 보상 차이를 가장 잘 구별해내는 소수의 사용자 프롬프트만 선택하여 학습에 사용하는 p1 알고리즘을 개발했다.
추론 벤치마크에서의 압도적 효율성 입증
AIME 24 데이터셋에서 단 2개의 프롬프트만으로 학습했음에도 불구하고, 전체 데이터셋을 사용한 RL 및 GEPA 등의 기존 기법보다 높은 일반화 성능을 기록했다.
핵심 아이디어 이해하기
프롬프트 최적화의 핵심은 여러 후보 시스템 프롬프트 중 어떤 것이 더 좋은지 판별하는 '신호'를 찾는 것이다. 딥러닝의 Gradient Descent가 손실 함수의 기울기를 따라가듯, 프롬프트 최적화는 각 프롬프트가 가져오는 보상(정답률)의 차이를 동력으로 삼는다. 하지만 수학 문제 풀이와 같은 복잡한 추론 작업에서는 모델이 같은 프롬프트에도 매번 다른 답을 내놓는 '응답 간 분산(Variance among responses)'이 너무 커서, 실제 프롬프트의 품질 차이인 '시스템 프롬프트 간 분산(Variance among system prompts)'을 가려버리는 문제가 발생한다.
더욱 흥미로운 점은 데이터셋의 크기를 키울 때 발생한다. 서로 성격이 다른 문제들이 섞여 있는 대규모 데이터셋에서는 A 문제에 좋은 프롬프트가 B 문제에는 나쁠 수 있다. 이를 평균 내면 모든 후보 프롬프트의 성능이 비슷해 보이는 '평균화의 함정'에 빠지게 된다. 이는 최적화 알고리즘 입장에서 어떤 프롬프트가 우수한지 구분할 수 없게 만드는 노이즈로 작용한다.
p1은 이 문제를 해결하기 위해 '가장 까다로운 심사위원' 역할을 할 프롬프트만 골라낸다. 즉, 시스템 프롬프트의 사소한 변화에도 정답 여부가 크게 갈리는(분산이 큰) 소수의 문제들만 선별한다. 이렇게 정제된 소수 정예 데이터로 학습하면 모델은 노이즈에 방해받지 않고 성능을 개선할 수 있는 명확한 방향을 찾게 되며, 결과적으로 훨씬 적은 계산 자원으로도 더 강력한 일반화 성능을 갖춘 프롬프트를 생성할 수 있다.
방법론
p1 알고리즘은 크게 두 단계로 구성된다. 첫 번째 단계는 정보량이 많은 사용자 프롬프트 부분집합을 선택하는 과정이다. 먼저 초기 정책에서 N개의 후보 시스템 프롬프트를 샘플링하고, 각 사용자 프롬프트에 대해 M번의 응답을 생성하여 보상을 측정한다. 이때 전체 보상 분산에서 응답의 확률성으로 인한 분산을 빼서 순수한 '시스템 프롬프트 간 분산'을 추정한다. [각 후보 프롬프트의 정답률 p_k_n을 입력으로] → [p_k_n(1-p_k_n)/(KM)을 계산하여 응답 분산을 구하고 전체 분산에서 이를 차감하여] → [순수 품질 분산 점수를 얻고] → [이 점수가 가장 높은 K_top개의 프롬프트 조합 S를 최종 학습셋으로 확정한다].
두 번째 단계는 선택된 부분집합 S*를 사용하여 강화학습(RL)을 수행하는 과정이다. 논문에서는 DeepSeek-V3 등에서 사용된 GRPO(Group Relative Policy Optimization)의 변형 알고리즘을 채택했다. [선택된 소수 프롬프트에 대해 생성된 시스템 프롬프트들의 보상을 입력으로] → [그룹 내 평균 보상을 기준으로 어드밴티지를 계산하여 정책을 업데이트하는 연산을 수행해] → [최적화된 시스템 프롬프트 생성 정책 π'를 얻고] → [이를 통해 다양한 추론 작업에 범용적으로 적용 가능한 고성능 프롬프트를 도출한다].
주요 결과
AIME 및 HMMT 추론 벤치마크 실험 결과, p1은 전체 데이터셋을 사용한 RL 방식보다 월등한 성능을 보였다. Qwen3-4B-Instruct 모델 기준, AIME 24에서 단 2개의 프롬프트로 학습한 p1은 AIME 25에서 54.01%의 정확도를 기록하여, 전체 30개 문제를 모두 사용한 RL(47.24%)이나 기본 모델(47.03%)을 크게 앞질렀다. 이는 데이터의 양보다 최적화 신호의 순도가 더 중요하다는 것을 시사한다.
반면, 지시 이행 능력을 평가하는 IFBench와 같이 비교적 동질적인(Homogeneous) 데이터셋에서는 전체 데이터를 사용하는 것이 더 유리했다. IFBench에서는 RL(39.46%)이 p1(37.41%)보다 높은 성능을 보였는데, 이는 모든 문제가 좋은 프롬프트에 대해 일관된 반응을 보일 경우 데이터 양이 많을수록 학습 신호가 강화되기 때문이다. p1은 특히 문제마다 선호하는 프롬프트가 다른 이질적인(Heterogeneous) 추론 작업에서 강력한 효율성을 발휘함이 확인됐다.
기술 상세
본 연구는 보상 분산의 이론적 분해를 통해 프롬프트 학습 가능성(Learnability)을 정의한다. 식 (5)에 따르면 기대 분산 E[Var(r)]은 'among responses' 항과 'among system prompts' 항의 합으로 나타나며, 전자는 1/(KM)에 비례하여 감소한다. 연구팀은 이 수식을 바탕으로 신호대잡음비(SNR) 개념을 도입하여, 데이터셋 크기 K가 커질 때 시스템 프롬프트 간의 진정한 보상 차이가 상쇄되어 SNR이 급격히 하락하는 현상을 수학적으로 설명했다.
p1은 이 SNR을 인위적으로 높이기 위해 K_top을 매우 작게(보통 2) 설정한다. 실험에서는 Qwen3-4B-Instruct를 응답 모델과 프롬프트 생성 모델로 모두 사용했으며, 4개의 H100 GPU 환경에서 3일간의 학습 예산 내에서 실험을 수행했다. 특히 p1이 생성한 프롬프트는 특정 문제의 정답을 암기하는 것이 아니라 '생각의 흐름(Thoughts)'을 강조하는 일반적인 추론 행동을 유도함으로써, 학습에 사용되지 않은 더 큰 모델(Qwen3-30B)이나 다른 연도의 벤치마크로도 우수한 전이 성능(Transferability)을 보여주었다.
한계점
본 연구의 분석은 보상이 0 또는 1인 이진 보상(Binary Reward) 환경을 전제로 설계되어, 보상이 연속적인 값으로 주어지는 밀집 보상(Dense Reward) 환경에서의 적용 가능성은 검증되지 않았다. 또한, 고분산 부분집합의 성능이 전체 분포의 성능과 항상 양의 상관관계를 갖는지에 대한 더 깊은 이해가 향후 과제로 남아 있다.
실무 활용
복잡한 수학적 추론이나 논리적 사고가 필요한 LLM 서비스에서 시스템 프롬프트를 최적화할 때, 수천 개의 데이터를 준비하는 대신 변동성이 큰 소수의 핵심 데이터만 선별하여 비용 효율적으로 성능을 개선할 수 있다.
- 경진대회 수준의 수학 문제 풀이 에이전트를 위한 시스템 프롬프트 튜닝
- 복잡한 논리 구조를 가진 법률/금융 문서 분석용 프롬프트 최적화
- 제한된 컴퓨팅 자원(GPU) 환경에서의 고효율 프롬프트 엔지니어링 자동화
코드 공개 여부: 미확인
키워드
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.