핵심 요약
효과적인 후보군 추출(Retrieval)과 정교한 피처 엔지니어링 기반의 재순위화(Reranking)를 결합한 2단계 아키텍처가 핵심이다. 특히 커리큘럼의 계층 구조를 텍스트 표현에 녹여내고 후처리 단계에서 상대적 확률을 활용한 것이 승패를 갈랐다.
배경
전 세계의 다양한 K-12 교육 자료를 표준화된 커리큘럼 분류 체계에 수동으로 정렬하는 작업은 매우 많은 비용과 시간이 소요된다. 이를 자동화하여 오프라인 환경에서도 교육 접근성을 높이기 위한 머신러닝 모델 개발이 대회의 핵심 목표이다.
대상 독자
자연어 처리(NLP), 정보 검색(IR), 다국어 모델 학습에 관심 있는 데이터 사이언티스트 및 개발자
의미 / 영향
이 솔루션은 수동으로 이루어지던 교육 자료 정렬 작업을 자동화하여 저개발 국가의 오프라인 교육 환경 개선에 기여한다. 특히 CPU만으로 20분 내에 추론이 가능한 경량화 모델은 저사양 인프라에서도 실질적인 활용이 가능하다. 다국어 STEM 교육 콘텐츠의 접근성을 획기적으로 높일 수 있는 기술적 토대를 마련했다.
챕터별 상세
대회 배경 및 팀 EPICURUS 소개
검증 전략 및 데이터 표현 방식
계층 구조를 텍스트로 직렬화하는 방식은 그래프 구조를 Transformer 모델이 이해하도록 돕는 일반적인 기법이다.
def get_topic_representation(topic_df):
# 부모 토큰들을 @ 기호로 연결하여 계층 구조 반영
topic_df['representation'] = topic_df['parent_title'] + " @ " + topic_df['title'] + " @ " + topic_df['description']
return topic_df커리큘럼의 계층 구조를 반영하기 위해 부모 제목과 현재 제목, 설명을 특정 구분자로 결합하는 텍스트 표현 방식
후보군 추출(Candidate Selection) 기법
Transformer 모델 학습 및 ArcFace 적용
ArcFace는 원래 얼굴 인식에서 사용되던 기법으로, 임베딩 공간에서 클래스 간 경계를 명확히 하는 데 효과적이다.
피처 엔지니어링 및 LightGBM 모델링
후처리 및 효율성 모델 전략
실무 Takeaway
- Transformer 모델의 입력 시퀀스 중 제목이 포함된 앞부분 토큰에만 풀링을 적용하여 핵심 정보의 가중치를 높였다.
- 커리큘럼의 계층 구조(부모-자식 관계)를 텍스트에 직렬화하여 포함함으로써 모델이 그래프 구조 정보를 활용하게 했다.
- 후처리 단계에서 절대적 확률 임계값 대신 상위 후보와의 상대적 확률 차이를 기준으로 매칭을 결정하여 재현율을 개선했다.
- TF-IDF(문자 단위)와 Transformer 임베딩을 상호 보완적으로 사용하여 다국어 텍스트의 오타와 시맨틱 매칭을 동시에 해결했다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.