sft
미리 정의된 프롬프트와 정답 쌍을 사용하여 모델을 특정 작업이나 스타일로 직접 학습시키는 과정이다. 모델이 지시사항을 따르는 능력을 향상시키는 데 핵심적인 역할을 한다.
RTX 4090으로 시작하는 DPO 실험: 고품질 선호도 데이터셋 구축 전략
LoRA 파인튜닝 후 모델이 바보가 됐다면? 치명적 망각 방지 전략
DeepSeek가 Claude를 훔쳤다? Anthropic의 폭로와 AI 증류의 실체
단순 프롬프트로 부족하다면? LLM 성능을 극대화하는 파인튜닝 전략
700개 데이터로 Qwen 파인튜닝 성공할까? 최적의 LoRA 설정법