8개 모델 대상 퓨샷(Few-shot) 성능 테스트: 예시 추가가 성능을 저하시키는 사례 발견

핵심 요약

8개 모델을 대상으로 0-8개 퓨샷 성능을 분석한 결과, 특정 임계값을 넘으면 성능이 급락하거나 모델 간 순위가 뒤바뀌는 현상이 확인됐다.

배경

다양한 LLM의 퓨샷 학습 효율을 측정하기 위해 8개 모델과 4개 작업을 대상으로 0개에서 8개까지의 예시 수를 변화시키며 벤치마크를 수행했다. 실험 과정에서 예시 추가가 오히려 성능을 떨어뜨리는 '피크 회귀'와 모델 순위가 역전되는 현상을 발견하여 이를 감지하는 도구인 AdaptGauge를 개발했다.

의미 / 영향

퓨샷 성능이 비선형적으로 변한다는 사실은 LLM 애플리케이션 설계 시 고정된 프롬프트보다 동적인 최적화가 필요함을 시사한다. 특히 모델의 규모와 상관없이 특정 작업에서는 작은 모델이 퓨샷 효율이 더 높을 수 있다는 점을 고려해야 한다.

커뮤니티 반응

실험 결과의 구체성과 수치 데이터에 대해 긍정적인 반응이 많으며, 특히 퓨샷이 성능을 해칠 수 있다는 실무적 발견에 대해 많은 사용자가 공감을 표했다.

주요 논점

01중립다수

퓨샷 예시는 다다익선이 아니며 모델과 데이터의 특성에 따라 최적 지점이 다르다.

합의점 vs 논쟁점

합의점

0-shot 성능만으로 모델의 잠재력을 판단하기 어렵다.
자동화된 예시 선택 방식은 수동 선택보다 위험 요소가 존재한다.

실용적 조언

모델 도입 전 0-shot부터 8-shot까지 성능 곡선을 그려 최적의 샷 수를 파악할 것
자동 예시 선택 알고리즘 적용 시 수동 선택 결과와 반드시 대조군 테스트를 수행할 것

전문가 의견

모델의 컨텍스트 윈도우 활용 능력과 퓨샷 예시 간의 간섭 현상을 정량적으로 측정하는 것이 프로덕션 환경에서 매우 중요하다.

언급된 도구

AdaptGauge추천

퓨샷 학습 곡선 분석 및 성능 붕괴 감지

섹션별 상세

퓨샷 예시가 늘어남에 따라 성능이 상승하다가 특정 지점에서 다시 하락하는 '피크 회귀(Peak Regression)' 현상이 관찰됐다. Gemini 3 Flash 모델은 경로 최적화 작업에서 0-shot일 때 33%였던 정확도가 4-shot에서 64%로 정점을 찍었으나, 8-shot에서는 다시 33%로 급락하며 학습 내용을 상실하는 모습을 보였다. 이는 무조건적인 예시 추가가 모델의 추론 능력을 방해할 수 있음을 시사한다.

퓨샷 개수에 따라 모델 간의 성능 우위가 뒤바뀌는 '순위 역전(Ranking Reversal)' 현상이 확인됐다. 분류 작업에서 Gemini 2.5 Flash는 0-shot에서 20%의 낮은 점수를 기록했으나 8-shot에서는 80%까지 상승하며, 시종일관 60% 수준을 유지한 Gemini 3 Pro를 추월했다. 프로젝트에 적합한 최적의 모델을 선정할 때 프롬프트 전략과 샷 수를 반드시 고려해야 한다는 결론에 도달했다.

퓨샷 예시를 선택하는 방법론에 따라 성능 차이가 극명하게 갈리는 '예시 선택 붕괴(Example Selection Collapse)'가 발생했다. GPT-OSS 120B 모델의 경우 사람이 직접 고른 예시를 사용할 때는 50% 이상의 성능을 보였으나, TF-IDF 기반의 자동 선택 방식을 적용하자 성능이 35%로 급감했다. 자동화된 예시 선택 알고리즘이 모델의 문맥 이해 방식과 충돌할 가능성이 있음을 보여준다.

실무 Takeaway

퓨샷 예시 추가는 특정 지점 이후 성능을 저하시키는 '피크 회귀'를 유발할 수 있으므로 모델별 임계값 확인이 필수적이다.
프롬프트 전략(샷 수)에 따라 모델 성능 순위가 역전될 수 있어 0-shot 벤치마크만으로 모델을 평가하는 것은 위험하다.
TF-IDF 등 자동화된 예시 선택 방식이 수동 선택보다 성능이 크게 떨어지는 현상이 관찰되어 선택 알고리즘의 신중한 검토가 필요하다.
모델과 작업 조합에 따른 학습 효율을 측정하기 위해 AUC(곡선 아래 면적)와 붕괴 감지 지표를 활용하는 것이 효과적이다.