Feedback Prize - 영어 학습자 평가 경진대회 1위 솔루션 발표

DeBERTa-v3 모델 앙상블과 정교한 의사 라벨링 기법을 활용하여 ELL 학생들의 에세이 점수를 정확하게 예측한 Kaggle 우승 솔루션이다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

단일 모델의 한계를 극복하기 위해 다양한 크기의 DeBERTa 모델을 조합하고, 이전 대회 데이터를 활용한 의사 라벨링과 컬럼별 가중치 앙상블을 통해 최고 성능을 달성했다.

배경

Kaggle의 'Feedback Prize - English Language Learning' 경진대회는 8~12학년 영어 학습자(ELL)의 에세이를 분석하여 언어 숙련도를 평가하는 모델을 개발하는 대회였다.

대상 독자

NLP 모델 성능 향상 기법에 관심 있는 데이터 사이언티스트 및 Kaggle 참가자

의미 / 영향

이 솔루션은 교육용 텍스트 평가 시스템에서 소규모 데이터셋의 한계를 극복하는 실전적인 방법론을 제시한다. 특히 의사 라벨링과 정교한 앙상블 기법은 유사한 도메인의 다른 NLP 과제에도 즉시 적용 가능한 강력한 성능 향상 도구임을 입증했다. 또한 고성능 앙상블의 결과를 단일 모델로 전이시켜 추론 효율성을 확보하는 방식은 실제 서비스 배포 시 매우 유용한 전략이다.

챕터별 상세

03:39

데이터 전처리 및 특수 토큰 활용

에세이 텍스트 내에 존재하는 학교명, 위치, 호텔명 등 16개의 플레이스홀더(Placeholder)를 식별하여 각각 고유한 특수 토큰으로 교체했다. 예를 들어 [Generic_School]은 [GENERIC_SCHOOL]이라는 전용 토큰으로 변환하여 토크나이저에 추가했다. 또한 줄바꿈 문자인 ' '을 [BR] 토큰으로 대체하여 모델이 텍스트의 구조적 정보를 더 잘 파악하도록 구성했다.

•16개의 플레이스홀더를 고유 특수 토큰으로 변환
•줄바꿈 문자를 [BR] 토큰으로 대체하여 구조 정보 유지
•커스텀 토큰을 토크나이저에 추가하여 임베딩 학습 유도

플레이스홀더는 개인정보 보호를 위해 실제 고유 명사 대신 삽입된 임시 텍스트를 의미한다.

04:48

의사 라벨링(Pseudo-labeling) 전략

이전 대회인 Feedback 1과 Feedback 2의 데이터를 병합하고 중복을 제거한 뒤, 현재 대회 데이터를 학습시킨 모델 앙상블을 사용하여 라벨을 생성했다. 이렇게 생성된 의사 라벨(Pseudo-labels)은 모델이 더 많은 데이터 패턴을 학습하는 데 기여했다. 데이터 누수를 방지하기 위해 엄격한 검증 과정을 거쳐 고품질의 라벨만을 학습에 활용했다.

•Feedback 1, 2 대회의 외부 데이터를 병합하여 활용
•다양한 모델의 앙상블을 통해 고품질 의사 라벨 생성
•데이터 누수(Leakage) 방지를 위한 검증 프로세스 적용

의사 라벨링은 라벨이 없는 데이터에 모델의 예측값을 임시 라벨로 부여하여 학습 데이터로 사용하는 준지도 학습 기법이다.

05:30

모델 아키텍처 및 학습 방법론

DeBERTa-v3를 베이스 모델로 사용하고 상단에 다양한 풀링(Pooling) 레이어를 결합한 구조를 채택했다. 학습 시에는 모델의 하위 n개 레이어를 동결(Freezing)하여 학습 효율을 높였으며, 레이어별로 다른 학습률을 적용하는 Differential Learning Rate 기법을 사용했다. 또한 모델의 강건성을 높이기 위해 Adversarial Weight Perturbation(AWP)을 적용하여 가중치에 미세한 노이즈를 주어 일반화 성능을 개선했다.

•DeBERTa-v3 기반의 다중 풀링 레이어 구조 설계
•Differential Learning Rate 및 레이어 동결 기법 적용
•AWP를 통한 모델의 일반화 성능 및 강건성 확보

AWP는 학습 과정에서 가중치에 의도적인 섭동을 주어 모델이 과적합되지 않고 더 견고해지도록 돕는 기법이다.

08:40

컬럼별 가중치 앙상블 및 Optuna 최적화

단순히 모델별로 가중치를 주는 방식이 아니라, 6개의 평가 항목(Cohesion, Syntax 등) 각각에 대해 모델별 가중치를 다르게 설정하는 Column-wise Weighted Ensemble을 구현했다. 총 18개의 모델과 6개의 타겟 컬럼에 대해 108개의 가중치 파라미터를 최적화했다. 이 과정에서 Optuna 프레임워크를 사용하여 MCRMSE 점수를 최소화하는 최적의 가중치 조합을 자동으로 탐색했다.

•6개 평가 항목별로 모델 가중치를 다르게 적용
•총 108개의 가중치 파라미터를 최적화 대상으로 설정
•Optuna를 활용한 자동화된 가중치 최적화 수행

MCRMSE는 여러 평가 항목의 평균 제곱근 오차를 평균낸 지표로, 이 대회의 주요 평가 척도이다.

13:05

추론 효율성을 고려한 단순 모델(Model 52)

앙상블 모델의 추론 시간이 8시간에 달하는 문제를 해결하기 위해 단일 DeBERTa-v3-large 모델 기반의 솔루션을 별도로 개발했다. 이 단일 모델은 앙상블 모델의 예측값을 의사 라벨로 사용하여 학습되었으며, 추론 시간을 25분으로 단축하면서도 리더보드 10위권에 해당하는 높은 성능을 유지했다. 이는 실무적인 배포 환경에서 성능과 효율성 사이의 균형을 맞춘 결과였다.

•추론 시간을 8시간에서 25분으로 대폭 단축
•앙상블 모델의 예측치를 의사 라벨로 활용해 단일 모델 학습
•단일 모델만으로도 리더보드 상위권 성능 달성

지식 증류(Knowledge Distillation)와 유사하게 복잡한 앙상블의 지식을 단일 모델에 전이시킨 방식이다.

실무 Takeaway

이전 대회(Feedback 1, 2) 데이터를 활용한 의사 라벨링이 모델의 일반화 성능 향상에 결정적인 역할을 했다.
모든 평가 항목에 동일한 가중치를 주는 대신, 각 컬럼별로 최적의 가중치를 찾는 컬럼별 앙상블 전략이 성능을 극대화했다.
의사 라벨링 학습 시에는 작은 배치 사이즈(3-6)를 사용하고, 실제 데이터 파인튜닝 시에는 큰 배치 사이즈(8-24)를 사용하는 것이 학습 안정성에 유리했다.

언급된 리소스

문서Feedback Prize - English Language Learning Competition

GitHubDeBERTa-v3 Model (Microsoft)

문서Optuna: A hyperparameter optimization framework

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 25.수집 2026. 02. 25.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.

Feedback Prize - 영어 학습자 평가 경진대회 1위 솔루션 발표 | AI Trends