Kaggle LLM 프롬프트 복구 경진대회 7위 솔루션: Mean Prompt와 LLM의 결합 전략

Beam Search 기반의 Mean Prompt 최적화와 Mistral 7B 추론을 결합하여 128토큰 제한 내에서 프롬프트 복구 성능을 극대화한 7위 수상 팀의 전략이다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

Beam Search와 Greedy 최적화를 통해 학습된 범용 프롬프트(Mean Prompt)와 Mistral 7B의 개별 추론 결과를 결합했다. 리더보드 점수와 상관관계가 높은 로컬 데이터셋을 구축하고, 128토큰이라는 물리적 제한 내에서 정보 밀도를 극대화한 것이 핵심이다.

배경

Kaggle의 LLM Prompt Recovery 대회는 Gemma 모델이 원본 텍스트를 수정할 때 사용한 프롬프트를 역으로 추론하는 과제를 다룬다.

대상 독자

LLM 경진대회 참가자 및 프롬프트 엔지니어링 최적화에 관심 있는 데이터 과학자

의미 / 영향

이 솔루션은 고정된 지시어와 가변적 지시어의 균형을 맞추는 하이브리드 프롬프트 설계 방식을 제시했다. 이는 프롬프트 역공학뿐만 아니라 대규모 텍스트 데이터의 스타일 변환이나 자동 레이블링 시스템 구축 시 비용 효율적인 최적화 가이드라인으로 활용 가능하다.

챕터별 상세

00:00

팀 소개 및 솔루션 개요

우크라이나 출신의 Taras Semenchenko와 Andrii Ivanenko 팀이 7위 솔루션을 발표했다. 솔루션은 Mean Prompt 학습, 학습 데이터셋 생성, LLM 통합의 세 가지 핵심 요소로 구성됐다. 전체 학습 과정은 RTX 4090 환경에서 약 8~10시간이 소요됐다.

•RTX 4090 단일 GPU에서 10시간 이내로 학습 가능한 효율적인 파이프라인 구축
•Mean Prompt와 LLM 추론을 결합한 하이브리드 접근 방식 채택

01:40

Mean Prompt 학습 - Beam Search 기법

약 8,000개의 예시 프롬프트가 포함된 데이터셋을 바탕으로 모든 예시와 유사한 Mean Prompt를 생성했다. Beam Search 방식을 적용하여 매 반복마다 프롬프트 끝에 단어를 하나씩 추가하며 데이터셋 내 다른 프롬프트들과의 유사도를 높였다. 초기값인 'rewrite this text'에서 시작하여 성능을 개선하는 최적의 단어 조합을 탐색했다.

•Beam Width를 5로 설정하여 상위 후보 단어들을 유지하며 최적의 프롬프트 확장
•초기 짧은 프롬프트에서 시작하여 성능 지표를 기준으로 단어를 점진적으로 추가

03:00

단어 삽입 및 프롬프트 트리밍 최적화

프롬프트의 끝에 단어를 추가하는 것 외에도 모든 가능한 위치에 단어를 삽입하는 Word Inserting 방식을 사용했다. 점수가 개선되는 경우에만 단어를 삽입하는 Greedy 알고리즘을 적용했다. 또한 프롬프트가 128토큰을 초과하지 않도록 점수 하락을 최소화하면서 불필요한 단어를 제거하는 Prompt Trimming 과정을 병행했다.

•토큰 단위가 아닌 단어 단위의 최적화를 통해 과적합(Overfitting) 문제 방지
•Greedy 방식의 삽입과 삭제를 반복하여 프롬프트의 정보 밀도 최적화

04:30

최종 학습 알고리즘 워크플로

Beam Search로 약 100개의 단어를 생성한 후 삽입 및 삭제 연산을 순차적으로 수행했다. 각 에포크(Epoch)가 끝날 때마다 122토큰 이하로 길이를 맞추는 추가 트리밍을 실시했다. 이 과정은 목표하는 프롬프트 점수에 도달할 때까지 3~4회 반복되는 최적화 루프 구조를 가졌다.

•Beam Search, Insertion, Deletion을 결합한 다단계 최적화 프로세스
•에포크별 토큰 제한 관리를 통해 추론 단계에서의 LLM 결과물 결합 공간 확보

06:20

데이터셋 생성 및 리샘플링 전략

공개된 프롬프트들을 수집하여 거대한 데이터셋을 구축한 후 리더보드(LB) 점수와 상관관계가 높은 로컬 데이터셋을 선별했다. 로컬 점수와 리더보드 점수 간의 코사인 유사도를 측정하는 평가 메트릭을 정의했다. 매 반복마다 무작위로 10개의 프롬프트를 샘플링하여 평가 메트릭이 개선되는 경우에만 새로운 데이터셋에 포함시키는 리샘플링 과정을 거쳤다.

•리더보드 점수와 로컬 검증 점수 간의 정렬(Alignment)을 위한 리샘플링 기법 적용
•코사인 유사도 기반의 평가 메트릭을 통해 데이터셋의 편향성 제거

09:40

추론 - Mean Prompt와 LLM의 결합

추론 단계에서는 Mistral 7B 모델을 파인튜닝 없이 그대로 사용했다. 모델은 원본 텍스트와 수정된 텍스트를 입력받아 'improve this text by'로 시작하는 프롬프트를 생성했다. 학습된 Mean Prompt와 LLM이 생성한 구체적인 지시사항을 결합하되 전체 길이가 128토큰을 넘지 않도록 엄격히 관리했다.

•Mistral 7B를 활용하여 개별 텍스트 쌍에 특화된 세부 지시사항 추출
•128토큰 초과 시 리더보드 점수가 급락하는 현상을 방지하기 위한 최종 트리밍 적용

text

Mean prompt: 'Rewrite this text ...' 
LLM prediction: 'making it a sea shanty' 
Combined: 'Rewrite this text ... making it a sea shanty'

학습된 Mean Prompt와 LLM의 추론 결과를 결합하여 최종 프롬프트를 구성하는 방식의 예시

11:45

주요 발견 및 결론

T5-sentence 모델의 입력에 단어를 추가하는 것만으로도 필요한 문장 임베딩을 구성할 수 있음을 확인했다. Mean Prompt와 LLM 예측의 결합이 단독 사용보다 유사도 점수를 향상시켰다. 특히 프롬프트 길이가 128토큰을 넘을 경우 리더보드 점수가 매우 낮아진다는 물리적 제약 조건을 발견했다.

•T5 임베딩 모델의 특성을 활용한 단어 기반 프롬프트 구성의 유효성 입증
•토큰 길이 제한(128토큰) 준수가 경진대회 성적의 결정적 요인임을 확인

실무 Takeaway

Beam Search와 Greedy 삽입/삭제를 결합한 알고리즘으로 특정 데이터셋에 최적화된 범용 프롬프트를 효율적으로 학습할 수 있다.
로컬 검증 점수가 리더보드 점수와 일치하도록 데이터셋을 리샘플링하는 과정이 모델의 신뢰성을 확보하는 데 필수적이다.
LLM의 추론 결과와 고정된 프롬프트를 결합할 때는 토큰 제한 내에서 정보의 우선순위를 정해 트리밍하는 전략이 성능 유지에 중요하다.

언급된 리소스

문서Kaggle LLM Prompt Recovery Competition

DemoMistral-7B-v0.2

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 26.수집 2026. 02. 26.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

Kaggle LLM 프롬프트 복구 경진대회 7위 솔루션: Mean Prompt와 LLM의 결합 전략 | AI Trends