핵심 요약
단일 모델의 한계를 극복하기 위해 다양한 크기의 DeBERTa 모델을 조합하고, 이전 대회 데이터를 활용한 의사 라벨링과 컬럼별 가중치 앙상블을 통해 최고 성능을 달성했다.
배경
Kaggle의 'Feedback Prize - English Language Learning' 경진대회는 8~12학년 영어 학습자(ELL)의 에세이를 분석하여 언어 숙련도를 평가하는 모델을 개발하는 대회였다.
대상 독자
NLP 모델 성능 향상 기법에 관심 있는 데이터 사이언티스트 및 Kaggle 참가자
의미 / 영향
이 솔루션은 교육용 텍스트 평가 시스템에서 소규모 데이터셋의 한계를 극복하는 실전적인 방법론을 제시한다. 특히 의사 라벨링과 정교한 앙상블 기법은 유사한 도메인의 다른 NLP 과제에도 즉시 적용 가능한 강력한 성능 향상 도구임을 입증했다. 또한 고성능 앙상블의 결과를 단일 모델로 전이시켜 추론 효율성을 확보하는 방식은 실제 서비스 배포 시 매우 유용한 전략이다.
챕터별 상세
데이터 전처리 및 특수 토큰 활용
- •16개의 플레이스홀더를 고유 특수 토큰으로 변환
- •줄바꿈 문자를 [BR] 토큰으로 대체하여 구조 정보 유지
- •커스텀 토큰을 토크나이저에 추가하여 임베딩 학습 유도
플레이스홀더는 개인정보 보호를 위해 실제 고유 명사 대신 삽입된 임시 텍스트를 의미한다.
의사 라벨링(Pseudo-labeling) 전략
- •Feedback 1, 2 대회의 외부 데이터를 병합하여 활용
- •다양한 모델의 앙상블을 통해 고품질 의사 라벨 생성
- •데이터 누수(Leakage) 방지를 위한 검증 프로세스 적용
의사 라벨링은 라벨이 없는 데이터에 모델의 예측값을 임시 라벨로 부여하여 학습 데이터로 사용하는 준지도 학습 기법이다.
모델 아키텍처 및 학습 방법론
- •DeBERTa-v3 기반의 다중 풀링 레이어 구조 설계
- •Differential Learning Rate 및 레이어 동결 기법 적용
- •AWP를 통한 모델의 일반화 성능 및 강건성 확보
AWP는 학습 과정에서 가중치에 의도적인 섭동을 주어 모델이 과적합되지 않고 더 견고해지도록 돕는 기법이다.
컬럼별 가중치 앙상블 및 Optuna 최적화
- •6개 평가 항목별로 모델 가중치를 다르게 적용
- •총 108개의 가중치 파라미터를 최적화 대상으로 설정
- •Optuna를 활용한 자동화된 가중치 최적화 수행
MCRMSE는 여러 평가 항목의 평균 제곱근 오차를 평균낸 지표로, 이 대회의 주요 평가 척도이다.
추론 효율성을 고려한 단순 모델(Model 52)
- •추론 시간을 8시간에서 25분으로 대폭 단축
- •앙상블 모델의 예측치를 의사 라벨로 활용해 단일 모델 학습
- •단일 모델만으로도 리더보드 상위권 성능 달성
지식 증류(Knowledge Distillation)와 유사하게 복잡한 앙상블의 지식을 단일 모델에 전이시킨 방식이다.
실무 Takeaway
- 이전 대회(Feedback 1, 2) 데이터를 활용한 의사 라벨링이 모델의 일반화 성능 향상에 결정적인 역할을 했다.
- 모든 평가 항목에 동일한 가중치를 주는 대신, 각 컬럼별로 최적의 가중치를 찾는 컬럼별 앙상블 전략이 성능을 극대화했다.
- 의사 라벨링 학습 시에는 작은 배치 사이즈(3-6)를 사용하고, 실제 데이터 파인튜닝 시에는 큰 배치 사이즈(8-24)를 사용하는 것이 학습 안정성에 유리했다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.