핵심 요약
효과적인 후보군 추출(Retrieval)과 정교한 피처 엔지니어링 기반의 재순위화(Reranking)를 결합한 2단계 아키텍처가 핵심이다. 특히 커리큘럼의 계층 구조를 텍스트 표현에 녹여내고 후처리 단계에서 상대적 확률을 활용한 것이 승패를 갈랐다.
배경
전 세계의 다양한 K-12 교육 자료를 표준화된 커리큘럼 분류 체계에 수동으로 정렬하는 작업은 매우 많은 비용과 시간이 소요된다. 이를 자동화하여 오프라인 환경에서도 교육 접근성을 높이기 위한 머신러닝 모델 개발이 대회의 핵심 목표이다.
대상 독자
자연어 처리(NLP), 정보 검색(IR), 다국어 모델 학습에 관심 있는 데이터 사이언티스트 및 개발자
의미 / 영향
이 솔루션은 수동으로 이루어지던 교육 자료 정렬 작업을 자동화하여 저개발 국가의 오프라인 교육 환경 개선에 기여한다. 특히 CPU만으로 20분 내에 추론이 가능한 경량화 모델은 저사양 인프라에서도 실질적인 활용이 가능하다. 다국어 STEM 교육 콘텐츠의 접근성을 획기적으로 높일 수 있는 기술적 토대를 마련했다.
챕터별 상세
대회 배경 및 팀 EPICURUS 소개
- •오프라인 우선 교육 환경을 위한 자동화된 콘텐츠 정렬이 목표이다
- •다국어 STEM 주제 매칭이라는 기술적 난제를 해결해야 했다
- •수동 정렬 프로세스를 대체할 수 있는 확장 가능한 ML 모델을 개발했다
검증 전략 및 데이터 표현 방식
- •리더보드와 상관관계가 높은 2단계 교차 검증 전략을 수립했다
- •부모 토픽 제목을 결합하여 커리큘럼의 맥락 정보를 보존했다
- •토픽과 콘텐츠를 각각 고유한 텍스트 문자열로 변환하여 임베딩 기반을 마련했다
계층 구조를 텍스트로 직렬화하는 방식은 그래프 구조를 Transformer 모델이 이해하도록 돕는 일반적인 기법이다.
def get_topic_representation(topic_df):
# 부모 토큰들을 @ 기호로 연결하여 계층 구조 반영
topic_df['representation'] = topic_df['parent_title'] + " @ " + topic_df['title'] + " @ " + topic_df['description']
return topic_df커리큘럼의 계층 구조를 반영하기 위해 부모 제목과 현재 제목, 설명을 특정 구분자로 결합하는 텍스트 표현 방식
후보군 추출(Candidate Selection) 기법
- •TF-IDF와 Transformer 임베딩을 결합하여 검색 범위를 좁혔다
- •문자 단위 n-gram을 사용하여 다국어 텍스트의 오타나 변형에 대응했다
- •토픽 간 관계를 이용한 2차 매칭으로 재현율(Recall)을 극대화했다
Transformer 모델 학습 및 ArcFace 적용
- •ArcFace를 통해 임베딩 공간에서의 클래스 분별력을 강화했다
- •제목이 포함된 앞부분 토큰에 풀링을 집중하여 성능을 개선했다
- •다양한 다국어 사전 학습 모델을 앙상블하여 일반화 성능을 확보했다
ArcFace는 원래 얼굴 인식에서 사용되던 기법으로, 임베딩 공간에서 클래스 간 경계를 명확히 하는 데 효과적이다.
피처 엔지니어링 및 LightGBM 모델링
- •임베딩 거리와 텍스트 통계량을 결합한 풍부한 피처 셋을 구성했다
- •LightGBM을 활용해 후보군 중 실제 매칭 여부를 정교하게 판별했다
- •단조 제약을 통해 거리 점수가 낮을수록 매칭 확률이 높아지도록 강제했다
후처리 및 효율성 모델 전략
- •상대적 확률 격차를 이용한 후처리로 F2 스코어를 최적화했다
- •CPU 기반 20분 추론이 가능한 고효율 경량 파이프라인을 증명했다
- •단순 의미 유사도를 넘어 커리큘럼의 구조적 특징을 모델이 학습했음을 확인했다
실무 Takeaway
- Transformer 모델의 입력 시퀀스 중 제목이 포함된 앞부분 토큰에만 풀링을 적용하여 핵심 정보의 가중치를 높였다.
- 커리큘럼의 계층 구조(부모-자식 관계)를 텍스트에 직렬화하여 포함함으로써 모델이 그래프 구조 정보를 활용하게 했다.
- 후처리 단계에서 절대적 확률 임계값 대신 상위 후보와의 상대적 확률 차이를 기준으로 매칭을 결정하여 재현율을 개선했다.
- TF-IDF(문자 단위)와 Transformer 임베딩을 상호 보완적으로 사용하여 다국어 텍스트의 오타와 시맨틱 매칭을 동시에 해결했다.
AI 요약 · 북마크 · 개인 피드 설정 — 무료
출처 · 인용 안내
인용 시 "요약 출처: AI Trends (aitrends.kr)"를 표기하고, 사실 확인은 원문 보기 기준으로 진행해 주세요. 자세한 기준은 운영 정책을 참고해 주세요.