이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.
핵심 요약
LLM은 학습 데이터의 편향으로 인해 반복적이고 기계적인 'Slop' 텍스트를 생성하는 경향이 있다. 기존의 단순 차단 방식은 추론 성능을 최대 96%까지 저하시키는 문제가 있다. FTPO(Final Token Preference Optimization)는 모델의 로짓을 직접 조정하여 원치 않는 토큰을 학습 단계에서 억제한다. 실험 결과 FTPO는 DPO 대비 8.5% 더 강력한 억제 효과를 보이며, 모델의 품질 저하 없이 90%의 Slop을 제거한다.
배경
LLM 추론 및 학습(Fine-tuning)에 대한 이해, 로짓(Logit) 및 확률 분포에 대한 기초 지식, DPO 등 선호도 학습 기법에 대한 이해
대상 독자
LLM 프로덕션 환경에서 텍스트 품질 및 생성 제어를 고민하는 개발자
의미 / 영향
FTPO는 모델의 추론 속도 저하 없이 반복적인 텍스트 생성을 효과적으로 제어할 수 있는 방법을 제시한다. 이는 긴 문맥 생성이나 창의적 글쓰기 모델의 품질을 개선하는 데 중요한 기술적 토대가 된다.
섹션별 상세
LLM은 학습 데이터의 영향으로 반복적이고 예측 가능한 'Slop' 텍스트를 생성한다. 단순 단어 차단 방식은 문맥을 파괴하고 의미 없는 출력을 유발하여 실무 적용에 한계가 있다.
Anti-slop sampler는 추론 과정에서 반복 패턴을 감지하고 백트래킹을 통해 토큰 확률을 조정한다. 하지만 이 방식은 잦은 백트래킹으로 인해 추론 처리량이 69~96% 감소하는 성능 저하를 동반한다.


FTPO는 모델이 Slop 토큰을 선택하지 않도록 학습 단계에서 로짓을 직접 조정한다. 세 가지 손실 함수(Preference, Target, Non-target)를 사용하여 특정 토큰만 정밀하게 억제하고 모델의 전체 분포 왜곡을 최소화한다.

FTPO는 DPO와 달리 모델의 범용 능력을 효과적으로 보존한다. Gemma 3 12B 모델 테스트에서 DPO는 40% 정확도 이후 품질이 급격히 하락했으나, FTPO는 높은 정확도에서도 품질을 유지하며 90%의 억제 성능을 기록했다.



실무 Takeaway
- 반복적인 텍스트 생성이 문제인 경우, 추론 시점의 샘플링 조정보다 FTPO와 같은 학습 기반의 로짓 조정이 품질 유지 측면에서 유리하다.
- FTPO는 세 가지 손실 함수를 조합하여 특정 토큰만 정밀하게 억제하므로, 모델의 범용 능력(GSM8k, MMLU 등)을 1~3% 내외의 최소한의 손실로 보존한다.
AI 분석 전체 내용 보기
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
원문 발행 2026. 06. 16.수집 2026. 06. 16.출처 타입 RSS
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.