핵심 요약
단순한 모델 학습을 넘어 ST5 임베딩 모델의 특성을 파악하고 고품질 데이터셋을 구축하는 것이 우승의 핵심이다. 특히 Mean Prompt 기반의 그리디 서치와 Mistral 7B를 통한 미세 조정이 효과적이었다.
배경
Kaggle의 LLM Prompt Recovery 대회는 원본 텍스트가 Gemma 모델에 의해 변환되었을 때 사용된 원래의 프롬프트를 예측하는 과제였다.
대상 독자
LLM 프롬프트 엔지니어링 및 임베딩 최적화에 관심 있는 데이터 과학자
의미 / 영향
이 솔루션은 LLM의 프롬프트 역공학 기술이 실질적으로 가능함을 입증했다. 이는 향후 프롬프트 보안 강화 연구나 자동 프롬프트 엔지니어링 도구 개발에 중요한 참고 자료가 될 것이다. 특히 임베딩 유사도를 지표로 사용하는 다양한 NLP 과제에서 Mean Prompt 최적화 기법이 널리 활용될 수 있다.
챕터별 상세
00:00
솔루션 개요 및 Mean Prompt 전략
우승 솔루션은 Mean Prompt와 Mistral 7B 모델을 결합한 구조이다. ST5 임베딩 유사도를 극대화하기 위해 토큰 단위의 그리디 서치(Greedy Search)를 수행하고 이를 반복적으로 정제(Iterative Refinement)하는 과정을 거쳤다. 문장 임베딩은 개별 단어보다 전체적인 의미를 포착하므로 토큰 하나씩 추가하는 방식에서 발생할 수 있는 지역 최적점 문제를 해결했다.
- •Mean Prompt와 Mistral 7B의 앙상블 구조
- •ST5 임베딩 유사도 기반의 반복적 토큰 최적화
Mean Prompt는 여러 변환 사례를 가장 잘 설명할 수 있는 가상의 최적 프롬프트를 의미하며, 여기서는 임베딩 공간에서의 거리를 최소화하는 문자열을 찾는 것이 목표이다.
03:04
고품질 데이터셋 구축 및 필터링
Gemini와 Gemma 1.1을 활용하여 약 5,000개의 프롬프트 쌍을 생성했다. GPT-4가 생성한 데이터는 'Whimsical'과 같은 특정 단어를 남발하거나 기계적인 패턴을 보여 품질이 낮다고 판단하여 배제했다. 생성된 데이터셋은 ST5 유사도 점수를 기준으로 필터링하고 유전 알고리즘(Genetic Algorithm)을 적용하여 실제 대회 리더보드와 유사한 분포를 갖도록 재샘플링했다.
- •Gemini 및 Gemma 1.1 기반의 데이터 생성
- •유전 알고리즘을 활용한 데이터셋 분포 최적화
04:39
T5 토크나이저 분석 및 Mistral 보정
T5 토크나이저 내부를 분석하여 루마니아어 토큰인 'lucrarea' 등이 임베딩 공간에서 특이한 역할을 수행함을 확인했다. Mistral 7B 모델에 'Modify this text by making it'과 같은 접두사를 붙여 프롬프트를 생성하게 했으며 이는 ST5 점수를 깎지 않으면서도 성능을 보정하는 역할을 했다. 짧은 문장에서는 ST5 지표가 불안정했으나 긴 텍스트에서는 Mean Prompt와의 조합이 매우 강력한 성능을 발휘했다.
- •T5 토크나이저의 특수 토큰 활용
- •Mistral 7B를 이용한 최종 프롬프트 보정
실무 Takeaway
- LLM이 생성한 데이터의 품질을 수동으로 검증하고 기계적인 패턴을 제거하는 과정이 필수적이다.
- 임베딩 모델(ST5)의 토크나이저 특성을 이해하면 최적화 과정에서 유리한 토큰을 선별할 수 있다.
- 단일 모델의 생성 결과에 의존하기보다 Mean Prompt와 같은 통계적 접근을 병행하는 것이 안정적이다.
언급된 리소스
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료