Kaggle Learning Equality 대회 우승 솔루션: 다국어 교육 커리큘럼 자동 정렬 시스템 | AI Trends

Kaggle Learning Equality 대회 우승 솔루션: 다국어 교육 커리큘럼 자동 정렬 시스템

K-12 교육 콘텐츠를 다국어 커리큘럼에 정렬하기 위해 Transformer 기반 검색과 LightGBM 분류를 결합한 2단계 파이프라인 우승 전략이다.

이 요약은 AI가 원문을 분석해 생성했습니다. 정확한 내용은 원문 기준으로 확인하세요.

핵심 요약

효과적인 후보군 추출(Retrieval)과 정교한 피처 엔지니어링 기반의 재순위화(Reranking)를 결합한 2단계 아키텍처가 핵심이다. 특히 커리큘럼의 계층 구조를 텍스트 표현에 녹여내고 후처리 단계에서 상대적 확률을 활용한 것이 승패를 갈랐다.

배경

전 세계의 다양한 K-12 교육 자료를 표준화된 커리큘럼 분류 체계에 수동으로 정렬하는 작업은 매우 많은 비용과 시간이 소요된다. 이를 자동화하여 오프라인 환경에서도 교육 접근성을 높이기 위한 머신러닝 모델 개발이 대회의 핵심 목표이다.

대상 독자

자연어 처리(NLP), 정보 검색(IR), 다국어 모델 학습에 관심 있는 데이터 사이언티스트 및 개발자

의미 / 영향

이 솔루션은 수동으로 이루어지던 교육 자료 정렬 작업을 자동화하여 저개발 국가의 오프라인 교육 환경 개선에 기여한다. 특히 CPU만으로 20분 내에 추론이 가능한 경량화 모델은 저사양 인프라에서도 실질적인 활용이 가능하다. 다국어 STEM 교육 콘텐츠의 접근성을 획기적으로 높일 수 있는 기술적 토대를 마련했다.

챕터별 상세

00:00

대회 배경 및 팀 EPICURUS 소개

Learning Equality 조직이 주최한 이 대회는 저사양 인프라와 오프라인 환경에서 교육 자료를 효율적으로 배포하기 위해 기획됐다. 우승 팀인 EPICURUS의 Ahmet Erdem은 컴퓨터 공학 배경의 Kaggle 그랜드마스터로, 시맨틱 유사도 매칭 기술을 활용해 솔루션을 구축했다. 대회 데이터는 다국어로 구성된 STEM 주제의 교육 콘텐츠와 이를 분류하는 커리큘럼 트리 구조로 이루어졌다.

08:58

검증 전략 및 데이터 표현 방식

Kaggle의 실제 테스트 셋과 유사한 환경을 만들기 위해 2단계 검증 스키마를 구축했다. 소스 토픽과 무작위로 선택된 토픽을 분리하여 로컬 검증 점수와 리더보드 점수 간의 상관관계를 높였다. 토픽 표현 시 부모 토픽의 제목을 최대 3단계까지 '@' 기호로 연결하여 트리의 계층 구조 정보를 모델이 학습할 수 있도록 설계했다. 콘텐츠의 경우 제목, 종류(연습문제, 비디오 등), 설명을 결합하여 표현했다.

계층 구조를 텍스트로 직렬화하는 방식은 그래프 구조를 Transformer 모델이 이해하도록 돕는 일반적인 기법이다.

python

def get_topic_representation(topic_df):
    # 부모 토큰들을 @ 기호로 연결하여 계층 구조 반영
    topic_df['representation'] = topic_df['parent_title'] + " @ " + topic_df['title'] + " @ " + topic_df['description']
    return topic_df

커리큘럼의 계층 구조를 반영하기 위해 부모 제목과 현재 제목, 설명을 특정 구분자로 결합하는 텍스트 표현 방식

11:40

후보군 추출(Candidate Selection) 기법

전체 데이터 셋에서 매칭 가능성이 높은 후보를 추리기 위해 네 가지 검색 방식을 병용했다. 첫째로 동일한 제목이나 부모를 가진 토픽의 콘텐츠를 추출하는 규칙 기반 방식을 사용했다. 둘째로 문자 4-gram 기반의 TF-IDF를 활용해 다국어 노이즈에 강한 유사도 검색을 수행했다. 셋째로 Transformer 모델을 이용해 시맨틱 유사도가 높은 상위 20개 콘텐츠를 추출했다. 마지막으로 토픽 간 유사도를 계산하여 유사한 토픽의 콘텐츠를 가져오는 2차 매칭 기법을 적용했다.

13:18

Transformer 모델 학습 및 ArcFace 적용

Paraphrase-multilingual-MiniLM, BERT-base, MPNet, XLM-RoBERTa 등 다양한 백본 모델을 앙상블했다. 학습 시 ArcFace 손실 함수를 적용하여 콘텐츠 클래스 간의 거리를 각도 마진으로 분리함으로써 변별력을 높였다. 입력 시퀀스 길이는 64로 제한하되, 제목 정보가 포함된 앞부분 32개 토큰의 출력값만 평균 풀링(Mean Pooling)하여 임베딩으로 사용했다. 나머지 32개 토큰은 설명 정보를 제공하는 컨텍스트 역할만 수행하도록 설계하여 제목의 중요도를 강조했다.

ArcFace는 원래 얼굴 인식에서 사용되던 기법으로, 임베딩 공간에서 클래스 간 경계를 명확히 하는 데 효과적이다.

17:23

피처 엔지니어링 및 LightGBM 모델링

추출된 후보군에 대해 이진 분류를 수행하기 위해 LightGBM 모델을 구축했다. 주요 피처로는 TF-IDF 점수, 벡터 코사인 거리, 토픽별 최소/최대/평균 거리 등의 집계 피처를 생성했다. 또한 '동일한 챕터 번호 포함 여부', '동일한 단어로 시작 여부'와 같은 이진 피처를 추가하여 텍스트의 구조적 일치성을 반영했다. 모델 학습 시에는 매칭된 샘플(Hit)에 가중치를 부여하고, 코사인 거리에 대해 단조 제약(Monotonic Constraint)을 설정하여 안정성을 높였다.

21:26

후처리 및 효율성 모델 전략

최종 예측 시 단순 임계값 대신 상대적 확률 차이를 이용한 후처리를 적용했다. 가장 높은 확률을 가진 콘텐츠와의 격차(Gap)를 계산하여 일정 범위 내에 있는 후보들만 최종 선택했다. 효율성 트랙(Efficiency Track)을 위해 MiniLM 백본 하나만 사용한 경량 모델을 개발했으며, 이는 CPU 환경에서 단 20분 만에 추론을 완료하면서도 리더보드 상위권의 성능을 기록했다. 데이터 내의 중복 토픽 문제와 그래프 구조 학습의 중요성을 발견하며 발표를 마무리했다.

실무 Takeaway

Transformer 모델의 입력 시퀀스 중 제목이 포함된 앞부분 토큰에만 풀링을 적용하여 핵심 정보의 가중치를 높였다.
커리큘럼의 계층 구조(부모-자식 관계)를 텍스트에 직렬화하여 포함함으로써 모델이 그래프 구조 정보를 활용하게 했다.
후처리 단계에서 절대적 확률 임계값 대신 상위 후보와의 상대적 확률 차이를 기준으로 매칭을 결정하여 재현율을 개선했다.
TF-IDF(문자 단위)와 Transformer 임베딩을 상호 보완적으로 사용하여 다국어 텍스트의 오타와 시맨틱 매칭을 동시에 해결했다.

언급된 리소스

문서Learning Equality - Curriculum Recommendations Competition

GitHubTeam EPICURUS 1st Place Solution GitHub

AI 분석 전체 내용 보기

AI 요약 · 북마크 · 개인 피드 설정 — 무료

출처 · 인용 안내

원문 발행 2026. 02. 25.수집 2026. 02. 25.출처 타입 YOUTUBE

인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.